Welcome to MSDN Blogs Sign in | Join | Help

CorrecteurOrthographiqueOffice

Nous sommes un groupe de linguistes informaticiens francophones (français, belges, canadiens) de Redmond (USA). Nous développons des outils linguistiques pour Microsoft. Ce blog est pour vous: nous attendons vos commentaires et suggestions. A vos plumes! ~~ We are a group of French-speaking computational linguists from Redmond, WA (USA) working on Microsoft proofing tools. We come from France, Belgium, and Canada. This blog is for you: send us your feedback and suggestions, in English or in French.

Syndication

Archive

Ils en parlent / They talk about these tools...

Interesting links/Liens intéressants

Le correcteur contextuel français d’Office 2010 cité dans Le Point

 

Lire tout de suite Magazine Hebdomadaire Le Point n°1928 - 27 août 2009 : Orthographe : La grande injustice

Le dernier numéro du magazine Le Point (27 août 2009) est consacré à l’orthographe, à l’occasion de la publication du livre de François de Closets, “Zéro Faute – L’orthographe, une passion française”. Un dossier fascinant de 9 pages, dont je vous recommande la lecture si vous vous demandez pourquoi l’orthographe déchaine (ou déchaîne, en orthographe traditionnelle) tant les passions au point d’être considérée comme un chef-d’œuvre du patrimoine français. J’ai eu l’occasion de m’entretenir de nos correcteurs orthographiques et grammaticaux avec la journaliste du Point, Alix Ratouis, ainsi que de fournir quelques éléments d’information sur les outils linguistiques de Microsoft, qui se retrouvent dans le livre de François de Closets. Je ne résiste pas à la tentation de reproduire ici le petit texte d’Alix Ratouis consacré à notre tout nouveau correcteur contextuel français (p.53), dont j’ai parlé récemment sur ce blog :

Un correcteur intelligent

Rouge pour les fautes d'orthographe, vert pour les erreurs grammaticales... et bientôt bleu pour les confusions homophones. En 2010, Microsoft Office sera doté d'un correcteur de troisième génération qui soulignera d'un trait ondulé azur «en son fort intérieur» et proposera «for intérieur» à l'utilisateur égaré. Les linguistes-informaticiens du Microsoft Natural Language Group se sont attaqués aux erreurs contextuelles: une structure syntaxique correcte (nom suivi d'un adjectif), mais erronée sur le plan du sens

 

J’aime aussi beaucoup la réponse faite par François de Closets en réponse à une question concernant la réforme de l’orthographe (p.49):

Apprenons aux enfants à dactylographier et à utiliser avec discernement les correcteurs électroniques. Et décriminalisons les fautes d’orthographe.

Une remarque pleine de bons sens, finalement, qui est très proche des recommandations que l’on trouve dans les programmes du collège et que j’avais citées en son temps :

L’élève apprend par ailleurs à consulter et à utiliser régulièrement et méthodiquement le dictionnaire, le manuel de grammaire, le guide de conjugaison ou encore à se servir, avec discernement et sans y voir  un outil qui le dispenserait de la réflexion, d’un logiciel de correction orthographique adapté.

Thierry Fontenelle

Microsoft Natural Language Group

Posted Wednesday, September 02, 2009 6:46 AM by OrthoFR | 3 Comments

Un correcteur contextuel français dans Office 2010

Lors de la Conférence Mondiale pour les Partenaires (Worldwide Partner Conference) à La Nouvelle Orléans ce 13 juillet 2009, Microsoft a dévoilé un grand nombre d’informations sur la nouvelle version d’Office, baptisée Office 2010. Une version d’évaluation vient d’être mise à la disposition de milliers d’utilisateurs qui se sont inscrits pour télécharger cette « Microsoft Office 2010 Technical Preview ». Vous pourrez découvrir les nouveautés sur le blog d’Office 2010 ainsi que sur http://backstage2010.fr et regarder de très belles vidéos sur le site www.microsoft.com/office2010.

Les utilisateurs francophones ne seront pas déçus. J’ai parlé à plusieurs reprises sur ce blog du correcteur contextuel anglais et espagnol que nous avons développé pour Office 2007 (les lecteurs du blog en anglais de notre équipe auront aussi lu les divers billets que nous avons écrits à ce sujet). Je suis heureux de vous annoncer que la gamme des outils de correction linguistique pour le français s’est étoffée et qu’un correcteur contextuel s’ajoute désormais au correcteur orthographique et au correcteur grammatical dont j’ai si souvent parlé sur ce blog.

Le correcteur contextuel français d’Office 2010 vous permettra de repérer un beaucoup plus grand nombre de fautes qui échappaient jusqu’à présent aux outils de vérification linguistique traditionnels. Contrairement au correcteur grammatical, qui utilise un analyseur syntaxique, le correcteur contextuel est basé sur des analyses statistiques et l’exploitation de ce que l’on appelle en anglais des « language models », des modèles linguistiques permettant de comparer le texte écrit par l’utilisateur à des énormes listes de fréquences de chaines de mots. Il permet ainsi de repérer des mots qui existent bel et bien en français mais qui sont utilisés de façon incorrecte dans un contexte donné.

Quelques exemples de fautes qu’Office 2010 vous permettra de repérer via un trait ondulé bleu:

Ils on faim. (on à ont)

Elles son malades. (son à sont)

Quand à moi, j’avoue que je sui fier de lui. (Quand à Quant ; sui à suis)

Si je peu me permettre, dans son fort intérieur, elle pense qu’elle a raison. (peu à peux ; fort à for)

Se test montre que le correcteur ne fonctionne pas trop mal. (Se à Ce)

L’installation de la fosse sceptique a pris plus de temps que prévu. (sceptique à septique)

Il arrive cet après midi.(après midi à après-midi)

Mon frère ma dit qu’il ne viendrait pas. (ma à m’a)

Il y a long temps que je l’aime, jamais je ne l’oublierai… (chanson populaire) (long temps à longtemps)

En temps que client de l’hôtel, vous avez gratuitement accès à l’Internet. (temps à tant)

 

 La copie d’écran ci-dessous illustre ce nouvel outil.

 

 

Qu’entend-on par « correcteur contextuel » ? Comme vous le savez, le correcteur orthographique traditionnel souligne en rouge les fautes de frappe (omission d’une lettre, permutation malencontreuse de deux lettres, etc). Le correcteur grammatical traite plus particulièrement les problèmes d’accord entre le nom et l’adjectif, entre un verbe et son sujet, etc… (via un souligné vert). Il est toutefois très difficile de repérer les fautes concernant par exemple les homonymes, c’est-à-dire cette gamme de mots qui se prononcent de la même manière, mais s’écrivent différemment. Pensons par exemple à son/sont, ou on/ont. Si j’écris ils on faim, un correcteur grammatical basé sur un analyseur syntaxique peine à repérer la faute parce que la structure de la phrase fautive est constituée d’un pronom (ils) suivi d’un autre pronom (on) suivi d’un nom (faim). Il est difficile de donner du sens à cette structure, puisqu’il ne s’agit pas d’un problème d’accord au sens traditionnel du terme (comparez avec ils mange du pain, où mange est bien un verbe, mais est mal accordé, ce que le correcteur grammatical repère bien).

Bien sûr, il ne faut pas s’attendre à ce que l’outil repère toutes les fautes possibles et imaginables (aucun outil n’en est capable, sauf si l’on accepte qu’il se trompe aussi très souvent dans son jugement, ce qui irrite généralement l’utilisateur). J’ai abordé à plusieurs reprises le problème de la précision et du rappel (j’en ai aussi parlé en anglais en lisant une évaluation académique de notre correcteur contextuel anglais) et, lors du développement de cet outil, nous avons en permanence tenté d’éviter les fausses alertes (l’outil a une précision très élevée, ce qui signifie qu’il se trompe très peu souvent quand il repère une erreur, mais il restera toujours des fautes qu’il ne pourra signaler). J’ai la faiblesse de croire que ce correcteur s’avèrera très vite indispensable pour bien des utilisateurs d’Office 2010 et qu’il complètera utilement la gamme des outils linguistiques que nous mettons à leur disposition.

Thierry Fontenelle

Microsoft Natural Language Group – Program Manager

 

Posted Thursday, July 16, 2009 2:19 AM by OrthoFR | 0 Comments

Comment utilisez-vous le correcteur orthographique et le correcteur grammatical de Word?

 

Si vous vous rendez sur le site de la FAQ de Word maintenu par Marina Mathias, une MVP (Microsoft Most Valuable Professional) mieux connue sous le nom de Circé sur les forums consacrés aux outils de Microsoft Office, vous pourrez y répondre à un sondage qu’elle y a créé il y a quelques semaines afin de mieux comprendre comment les utilisateurs d'Office utilisent les outils de vérification linguistique. Les questions qu’elle pose sont les suivantes :

Comment utilisez-vous le correcteur orthographique et grammatical de Word ?

·         Au fur et à mesure de la saisie

·         Une fois que le document est entièrement saisi

·         De temps à autre, mais c’est moi qui le lance

·         Je ne l’utilise pas car je ne fais jamais de fautes

·         Je ne l’utilise pas car il me trouve trop de fautes

Ce sont bien évidemment des questions qui nous intéressent. Pourquoi n’y répondriez-vous pas, vous aussi (http://faqword.fr/)? Je vous encourage à profiter de l’occasion pour laisser vos commentaires sur ce blog, si vous souhaitez partager votre expérience. Utilisez-vous ces outils au cours de la frappe (en mode arrière-plan), ou plus tard, quand vous avez terminé de saisir votre texte ?

Si vous avez des souhaits particuliers, par exemple concernant des fonctionnalités linguistiques que vous souhaiteriez trouver, n’hésitez pas à laisser un commentaire ci-dessous. Je vous assure que nous vous lirons avec intérêt.

Thierry Fontenelle

Microsoft Natural Language Group

 

Posted Saturday, May 23, 2009 7:18 PM by OrthoFR | 1 Comments

Packs linguistiques d’Office 2007 avec correcteurs orthographiques pour le luxembourgeois et l’irlandais

La gamme des langues disposant de correcteurs orthographiques pour Office 2007 s’étoffe régulièrement, comme les lecteurs de ce blog le savent. C’est maintenant le tour du luxembourgeois et de l’irlandais : les utilisateurs d’Office 2007 peuvent désormais télécharger gratuitement un module linguistique (LIP – Language Interface Pack) pour l’une ou l’autre de ces deux langues. Ce module leur permettra de changer la langue de l’interface utilisateur, s’ils le souhaitent. Ils peuvent aussi choisir de garder la langue originale de leur version d’Office (anglais, français, allemand…), mais en activant simplement le correcteur orthographique luxembourgeois ou irlandais inclus dans ces nouveaux modules.

Les deux nouveaux correcteurs ont été créés à l’aide du Lexicon Creator que j’ai présenté au congrès d’Euralex (l’Association Européenne de Lexicographie) en 2008.

Le luxembourgeois, une langue germanique parlée par environ 390.000 personnes principalement au Grand-Duché de Luxembourg, est la langue nationale de ce pays (l’allemand et le français en étant des langues administratives).

L’irlandais est la langue nationale de la République d’Irlande, mais aussi une des langues officielles de l’Union Européenne (depuis le 1er janvier 2007). Environ 1,8 million d’habitants comprennent cette langue à des degrés divers (c’est la langue maternelle ou quotidienne d’environ 70,000 personnes).

Ces modules linguistiques sont développés dans le cadre du Microsoft Local Language Program, dont le but est de préserver les langues et les cultures locales et régionales en permettant aux utilisateurs d’outils informatiques de travailler avec des interfaces dans leurs propres langues. Vous pouvez les télécharger ici :

·         Module linguistique luxembourgeois pour Office 2007

·         Module linguistique irlandais pour Office 2007

Thierry Fontenelle

Microsoft Natural Language Group

Posted Saturday, April 18, 2009 11:14 PM by OrthoFR | 1 Comments

La presse belge passe à la nouvelle orthographe

Les habitués de ce blog savent que le correcteur orthographique français d’Office tient compte, depuis plusieurs années, de la “nouvelle orthographe”, c’est-à-dire des recommandations de l’Académie Française (que certains appellent souvent « réforme de l’orthographe »). J’ai parlé à plusieurs reprises des avancées récentes de l’application de ces nouvelles règles, notamment dans les récentes circulaires ministérielles et dans les programmes des Ministères de l’Education, tant en France qu’en Belgique.

Ce lundi 16 mars, grande nouvelle et nouvelle percée significative de cette nouvelle orthographe : c’est l’ensemble de la presse belge francophone qui passe à la nouvelle orthographe, un évènement annoncé à l’occasion de la semaine de « La langue française en fête » par le Service et le Conseil de la langue française et de la politique linguistique de la Communauté française de Belgique et par l’Université catholique de Louvain (UCL).

Dès ce lundi 16 mars, trois des plus grands groupes de la presse francophone belge (La Libre Belgique, Le Soir, La Dernière Heure) passent à la nouvelle orthographe. Il est en fait plus exact de dire qu’ils laisseront leurs lecteurs choisir entre deux versions, en orthographe rectifiée ou en orthographe traditionnelle. Un bouton nommé « RECTO/VERSO » (RECTifications Orthographiques / VERSion Originale) permet de basculer d’une version à l’autre. Le logiciel effectuant la conversion automatique a été développé par le CENTAL (Centre de Traitement Automatique du Langage de l’Université Catholique de Louvain).

Je connais bien le Cental, ce centre dynamique qui s’illustre par le développement d’applications très concrètes des technologies de la langue. Leurs publications (Les Cahiers du Cental) me sont familières puisque j’ai eu l’occasion de publier dans Le français m’a tuer un article concernant la féminisation des noms de métiers et la prise en compte de ces rectifications orthographiques dans le correcteur orthographique de Microsoft Office, que les utilisateurs de Word connaissent bien. J’ai également contribué à Verbum ex machina…, qui reprend les actes de la conférence internationale TALN 2006.

J’étais en contact avec Cédrick Fairon, le Directeur du Cental ce weekend (orthographe rectifiée !), qui m’a fait part de cette nouvelle. J’ai voulu en savoir plus sur ce logiciel et surtout savoir comment il réagissait face à une phrase rédigée en orthographe traditionnelle telle que :

Il passe ses après-midi à jouer du piano.

En nouvelle orthographe, le mot après-midi est écrit au pluriel avec "s" (il était traditionnellement invariable). L'ajout du "s" présuppose donc une analyse grammaticale et pas un simple remplacement de chaines de caractères (on écrirait chaînes en orthographe traditionnelle). Voici ce que l’outil RECTO/VERSO propose pour cette phrase :

 

La bulle explicative apparait (sans accent circonflexe selon les rectifications) lorsque le lecteur passe la souris sur la forme corrigée. Comme on le voit, le logiciel, qui repère bien qu’après-midi est utilisé au pluriel et prend « s » selon les nouvelles règles, a aussi une finalité pédagogique indéniable. Il sera sans nul doute très utile à ceux qui souhaitent en savoir plus sur ces nouvelles règles.

Il est incontestable que cette initiative du paysage médiatique belge contribuera à mieux faire connaitre cette nouvelle orthographe, qui est désormais recommandée dans l’enseignement et traitée de plus en plus systématiquement par les dictionnaires et les grammaires. Elle va dans le même sens que la décision que nous avions prise de proposer plusieurs options aux utilisateurs de la suite bureautique Office. Par défaut, le correcteur orthographique d’Office, qui, rappelons-le, a obtenu un label de qualité d’orthographe-recommandee.info, accepte les deux orthographes (la traditionnelle et la nouvelle), conformément aux vœux de l’Académie et des instances compétentes, mais il est très aisé d’opter soit pour la nouvelle uniquement, soit pour l’ancienne uniquement. Le changement d’option se fait d’un simple clic, comme je l’ai expliqué sur ce blog. Pas besoin d’installer ou de charger un nouveau dictionnaire, de reconfigurer quoi que ce soit, ou de se lancer dans des opérations délicates pour passer de l’une à l’autre. Vous êtes désormais prêts à rédiger vos textes selon ces nouvelles conventions, si vous le souhaitez. Pour la lecture des nouvelles sur la toile belge, Recto/Verso sera un outil complémentaire bien utile…

Thierry Fontenelle (Senior Program Manager - Microsoft Natural Language Group)

 

Posted Tuesday, March 17, 2009 3:27 AM by OrthoFR | 1 Comments

Reconnaissance automatique de l’écriture dans Windows 7

 Je vous recommande la lecture du billet de ma collègue Yvonne consacré aux innovations en matière de reconnaissance de l’écriture (handwriting recognition) dans Windows 7. Le billet est publié sur le blog fascinant du nouveau système d’exploitation Windows 7 (dont plusieurs articles sont d’ailleurs disponibles en français).

La reconnaissance de l’écriture est désormais bien intégrée à Windows 7 et notre groupe collabore régulièrement avec l’équipe de Tablet PC, notamment pour l’échange de données linguistiques et lexicales, ainsi que d’outils servant à la confection de dictionnaires. Comme le note Yvonne, la reconnaissance de l’écriture repose sur l’exploitation de grosses quantités de données allant bien au-delà de la reconnaissance de la forme d’une lettre : un lexique reprenant une liste aussi exhaustive que possible des mots d’une langue (y compris leurs formes fléchies, bien évidemment) est nécessaire pour calculer les probabilités de rencontrer certains mots dans certains contextes. Dans de nombreux cas, ce lexique est identique à celui que nous développons pour nos correcteurs orthographiques dans Office, d’où les synergies entre le groupe Tablet PC où travaille Yvonne et notre Natural Language Group. Windows Vista propose actuellement la reconnaissance de l’écriture sous Tablet PC pour une douzaine de langues (dont le français, à côté de l’anglais – américain et britannique, l’allemand, l’espagnol, l’italien, le néerlandais, le portugais brésilien, le chinois (simplifié et traditionnel), le japonais et le coréen). Windows 7 y ajoutera le norvégien, le suédois, le finlandais, le danois, le russe et le polonais et d’autres langues suivront.

Thierry Fontenelle

Microsoft Natural Language Group

Posted Sunday, March 01, 2009 4:03 AM by OrthoFR | 1 Comments

Les dictionnaires d’exclusion d’Office 2007 dans Language Tech News

J’avais écrit un billet, il y a quelques mois, sur la façon dont on peut enlever un mot du dictionnaire principal du correcteur orthographique d’Office. Ce billet était publié sur l’autre blog de notre Natural Language Group, auquel je contribue régulièrement. L’éditeur de Language Tech News, une publication de la Language Technology Division de l’American Translators Association (ATA), a souhaité reproduire ce billet dans le tout dernier numéro de cette publication (vol.2, No.4, February 2009). Outre les détails plus techniques sur la méthode à utiliser pour utiliser les « dictionnaires d’exclusion » d’Office 2007 (une question qui revient épisodiquement sur les forums de discussion), c’était l’occasion de montrer comment les nouveaux correcteurs contextuels d’Office 2007 réduisent le besoin que ressentent certains utilisateurs d’enlever certains mots du lexique de leur correcteur.

Ce numéro de Language Tech News contient également quelques articles intéressants sur la gestion de la terminologie et sur les avancées récentes en matière de traduction automatique, notamment sur la traduction automatique basée sur les méthodes statistiques (il est d’ailleurs intéressant de lire « Perhaps the most successful MT application in the world today, the Microsoft Knowledge Base, used by hundreds of millions of users across the globe, is mostly a SMT-based effort » - je traduis « La réussite la plus spectaculaire en matière de traduction automatique aujourd’hui est peut-être la Base de Connaissances de Microsoft, qui est utilisée par des centaines de millions d’utilisateurs de par le monde et qui est principalement basée sur un système de traduction automatique statistique).

Thierry Fontenelle (Microsoft Natural Language Group - Program Manager)

Posted Saturday, February 21, 2009 6:09 PM by OrthoFR | 2 Comments

Packs linguistiques d’Office 2007 et correcteurs orthographiques pour l’arménien, le télougou, le konkânî, le kannada et le panjâbî

 Le Language Log parlait il y a peu de la localisation des logiciels dans les langues peu dotées comme le Yoruba. Mark Liberman relevait que, via son « Unlimited Potential Program », Microsoft avait probablement fait plus pour la diversité linguistique que tous les autres éditeurs de logiciels en fournissant des versions localisées dans des dizaines de langues. Le Microsoft Local Language Program vient entretemps d’accoucher de toute une série de nouveaux packs linguistiques pour Office 2007 qui permettent aux utilisateurs de travailler avec des interfaces dans leurs propres langues tout en bénéficiant de l’appui de correcteurs orthographiques (certaines de ces langues ne disposaient pas encore de correcteur orthographique). Les nouveaux LIP (Language Interface Packs) peuvent être téléchargés gratuitement en cliquant sur la langue ci-dessous et concernent les langues suivantes (dont quatre parlées en Inde):

·         Arménien (ou հայերեն լեզու, si on veut l’écrire en arménien ; 7 millions de locuteurs, dont 3 en Arménie)

·         Télougou (ou tĕlugu తెలుగు ; une des quatre langues classiques de l’Inde  et l’une des 22 langues officielles de ce pays, parlée entre autres dans la région de Pondichéry);

·         Konkânî (7,6 millions de locuteurs, une des langues officielles de l’Inde, principalement parlée dans l’Etat de Goa)

·         Kannada (ou ಕನ್ನಡ; une des langues dravidiennes majeures de l’Inde et langue officielle de l’Etat du Karnataka, au Sud de l’Inde ; environ 35 millions de locuteurs)

·         Panjâbî (ou ਪੰਜਾਬੀ ; langue indo-aryenne parlée dans la région du Panjab, à cheval sur l’Inde et le Pakistan ; elle compte 90 millions de locuteurs, ce qui en fait la 11e langue la plus importante du monde si l’on considère le nombre de locuteurs)

 

Thierry Fontenelle

Microsoft Natural Language Group

Posted Thursday, January 08, 2009 5:22 AM by OrthoFR | 1 Comments

Services Linguistiques dans Windows 7

Lors de la récente conférence PDC 2008 (Professional Developers Conference) où Windows 7, le futur système d’exploitation de Microsoft en cours de développement, a été dévoilé pour la première fois au public, mes collègues du groupe Windows International ont présenté quelques innovations à venir dans le domaine des outils linguistiques. Ils ont entre autres dévoilé le projet ELS (Extended Linguistic Services), qui permet aux développeurs d’utiliser un ensemble d’API pour accéder à des fonctionnalités linguistiques. Ainsi, les développeurs utilisant ces API dans Windows 7 disposeront dorénavant par exemple des fonctionnalités suivantes :

-          Des outils de translittération permettant notamment de convertir le chinois simplifié en chinois traditionnel (et vice versa), ou de passer de l’alphabet cyrillique à l’alphabet latin, etc…

-          Des outils de détection automatique de l’alphabet et de la langue (plus d’une centaine de langues seront ainsi supportées), ce qui permettra aux développeurs de détecter automatiquement la langue de n’importe quel fragment de texte Unicode.

On imagine aisément les applications potentielles de ce genre de fonctionnalités, surtout dans les environnements multilingues (la détection d’un alphabet ou d’une langue est cruciale pour accéder à l’information via un moteur de recherche, par exemple). Mes collègues ont publié un article sur le site « Go Global », qui décrit ce projet dans les grandes lignes et offre même des échantillons de code source : http://msdn.microsoft.com/en-us/goglobal/dd156834.aspx

Vous pouvez également accéder à la vidéo de la présentation (passionnante !) de Yaniv Feinberg et Erik Fortune, intitulée Windows 7 : Writing World-Ready Applications. La première planche - « Language Matters » - nous dit tout sur l’importance de la globalisation en matière de logiciels. La présentation PowerPoint peut être téléchargée ici. La vidéo inclut de belles démonstrations.

Ma collègue Kieran Snyder a déjà commencé à aborder ces thèmes sur son blog. Elle va continuer de nous informer dans les prochaines semaines quant aux développements relatifs à ces Extended Linguistic Services auxquels elle est directement associée.

Thierry Fontenelle

Microsoft Natural Language Group

Posted Sunday, November 09, 2008 1:44 AM by OrthoFR | 1 Comments

Correcteur grammatical anglais, fragments et paramètres

Un traducteur demandait il y a quelques jours sur le forum de Word comment faire en sorte que le correcteur grammatical anglais d'Office cesse de lui signaler comme fautives certaines constructions correspondant à des fragments de phrases. Cet utilisateur d’Office ne souhaitait pas désactiver le correcteur orthographique, qu’il considère comme très utile, ni même le correcteur grammatical anglais lui-même, mais uniquement la règle concernant les « fragments » de phrases. Comme le montre l’exemple ci-dessous, le correcteur grammatical anglais se déclenche et souligne en vert des phrases considérées comme incomplètes (le fragment « And oranges. », par exemple, ou une phrase où le verbe est manquant, comme « He happy. »). En cliquant sur le bouton droit de la souris, on constate que le correcteur conseille de revoir cette structure (Fragment (consider revising)).

 

Le correcteur est sensible au contexte dans lequel on a utilisé ces fragments. Ainsi, un fragment comme « Flight to Paris » ne sera pas souligné en vert s’il n’est pas suivi d’un point (par exemple dans un titre). Le correcteur ne se déclenchera pas non plus si cette même structure apparait dans une liste (numérotée ou non, comme dans l’exemple ci-dessus). Par contre, dans d’autres contextes que le titre ou la liste, il peut sembler légitime de signaler à l’utilisateur que ce fragment semble suspect. Libre à l’auteur d’ignorer ce soulignement, bien sûr.

Cela dit, pour en revenir à la question de notre traducteur, il est effectivement possible de paramétrer le correcteur grammatical et d’empêcher cette règle précise de se déclencher si on la trouve inutile. Pour ce faire, il suffit d’aller dans les options linguistiques de Word 2007 (via le gros bouton d’Office dans le coin supérieur gauche). Choisissez ensuite les « Options Word », puis « Vérification ». Cliquez sur le bouton « Paramètres » dans la section « Lors de la correction orthographique et grammaticale dans Word ». Vous verrez alors la liste des règles du correcteur grammatical anglais, comme le montre la copie d’écran ci-dessous. Il vous suffira de décocher la 2e règle (Fragments and Run-ons), entre la règle « Capitalization » et la règle « Misused words » et le tour est joué. Le soulignement vert n’apparaitra alors plus sous les structures illustrées ci-dessus.

Pour avoir accès à ces paramètres du correcteur grammatical anglais, votre curseur doit se trouver dans une zone de texte où la langue définie est l’anglais (le correcteur anglais lui-même ne se déclenchera d’ailleurs que si la langue de votre texte est définie comme « anglais »). Si votre texte est en français, les règles grammaticales du correcteur français seront bien évidemment très différentes, mais vous pouvez également les paramétrer en suivant la méthode décrite ci-dessus. Les paramètres du correcteur grammatical français apparaitront alors comme ceci :

 

Comme on le voit, l’utilisateur dispose d’une certaine liberté dans la façon dont il souhaite faire usage de son correcteur grammatical. De mon côté, j’ai décoché la règle « Style – Contractions » du correcteur anglais parce que j’utilise quotidiennement les contractions comme « I’ll », « You’ll » dans mes courriels à mes collègues. Je sais toutefois que, dans de nombreux cas, les utilisateurs rédigeant des lettres et des documents très officiels souhaitent identifier ces contractions pour les remplacer par les formes stylistiquement plus soutenues (I will, you will…). C’est la raison pour laquelle ces palettes d’options sont offertes aux utilisateurs de ces outils complexes.

N’hésitez pas à me faire part de vos commentaires ou suggestions.

Thierry Fontenelle

Microsoft Natural Language Group

 

Posted Saturday, October 18, 2008 7:12 PM by OrthoFR | 7 Comments

Orthographe et enseignement en Belgique francophone : nouveautés de la rentrée scolaire 2008

Encore une nouvelle qui intéressera les enseignants belges.  J’apprends via la Liste de diffusion Orthographe en direct que trois nouvelles circulaires ministérielles viennent d’être publiées à l’attention des enseignants de Belgique francophone : elles précisent que les professeurs de français de tous niveaux sont invités à enseigner prioritairement les graphies rénovées. L’orthographe rectifiée devient donc la référence pour l’enseignement et les professeurs doivent donc tenir compte des rectifications orthographiques dont j’ai parlé à de nombreuses reprises sur ce blog. Il y a quelques semaines, j’annonçais d’ailleurs ici-même que les programmes scolaires 2008-2009 du Ministère français de l’Education Nationale indiquaient aussi que les professeurs devaient tenir compte des rectifications de l’orthographe approuvées par l’Académie française. On constate donc une approche semblable de la part des autorités de Belgique francophone. Les circulaires ministérielles belges, qui sont applicables à partir de la rentrée scolaire 2008, rappellent également que la nouvelle orthographe et l’ancienne orthographe sont toutes deux correctes et doivent donc être toutes deux admises par les enseignants.

Ces circulaires ministérielles peuvent être consultées aux adresses suivantes :

http://www.adm.cfwb.be/upload/docs/2675_20080929162105.pdf
http://www.adm.cfwb.be/upload/docs/2677_20080926125753.pdf
http://www.adm.cfwb.be/upload/docs/2676_20080926124747.pdf

Si vous lisez ce blog régulièrement, vous savez que le correcteur orthographique d’Office tient compte de ces formes rectifiées et qu’il accepte par défaut l’ancienne orthographe (dénommée dans les options d’Office 2007 « orthographe traditionnelle ») et la nouvelle orthographe (dénommée « orthographe rectifiée »), ce qui correspond bien à la teneur de ces circulaires ministérielles voulant que les deux orthographes soient admises et qu’aucune des deux graphies ne puisse être tenue pour fautive . Il est très facile, d’un clic de souris, de changer cette option par défaut et de ne plus accepter que les formes nouvelles, si l’on souhaite s’y habituer, les enseigner ou les étudier (voir le billet où j’ai décrit la façon dont ces options peuvent être modifiées, de même que le billet où j’évoque les tutoriels réalisés pour les enseignants qui souhaitent se familiariser avec ces options linguistiques du correcteur orthographique de Word).

Il n’est plus possible d’ignorer ces rectifications, d’autant plus que les ouvrages de référence intègrent ces formes de plus en plus systématiquement. Ainsi, l’édition 2009 du Petit Robert a subi une profonde révision pour faire une plus grande place à l’orthographe rectifiée (6000 mots ont droit à une double entrée mentionnant l’ancienne et la nouvelle orthographe, comme l’indiquait le Nouvel Observateur il y a quelques jours). De la même façon, le mémento grammatical du Petit Larousse illustré 2009 inclut également la liste des mots concernés par les rectifications de l’orthographe. Les rectifications ont donc progressé dans l’usage, dans les ouvrages de référence et dans les logiciels de correction linguistique.

 

Thierry Fontenelle

Microsoft Natural Language Group

Posted Sunday, October 12, 2008 8:09 PM by OrthoFR | 2 Comments

Packs linguistiques d’Office 2007 disponibles avec correcteurs orthographiques pour le géorgien et l’oriya

On parle beaucoup de la Géorgie ces derniers temps. Ce n’est pourtant pas la situation politique dans ce pays que je veux évoquer dans ce billet, mais bien la sortie il y a quelques jours d’un module linguistique géorgien pour Office 2007. Le géorgien (dont le nom s’écrit comme ceci en alphabet géorgien: ქართული) est une langue caucasienne qui compte 4 millions de locuteurs. Comme pour les autres LIP (Language Interface Packs) dont j’ai parlé précédemment sur ce blog, les usagers de ce module linguistique peuvent changer la langue de l’interface utilisateur. Ils disposent en outre d’un tout nouveau correcteur orthographique développé à l’aide de nos outils de confection de dictionnaires (je l’ai évoqué il y a quelques jours ici).

Petite anecdote : les groupes de consonnes sont très fréquents en géorgien. Certains mots peuvent compter jusqu’à 8 consonnes consécutives ! (par exemple გვბრდღვნი - gvbrdgvni = tu nous déchires). Le système de déclinaison des noms compte 8 cas et la morphologie verbale est très complexe.

Au même moment est sorti le module linguistique oriya, une des langues officielles de l’Inde, parlée principalement dans l’Etat d’Orissa par une trentaine de millions de personnes. Ici encore, le module linguistique comporte un correcteur orthographique tout nouveau.

La gamme des langues disposant de correcteurs orthographiques pour Office 2007 s’étoffe donc régulièrement, tout cela grâce au Microsoft Local Language Program, dont le but est de préserver les langues et les cultures locales et régionales en permettant aux utilisateurs d’outils informatiques de travailler avec des interfaces dans leurs propres langues. Vous pourrez télécharger ces LIP gratuitement en suivant les liens suivants :

·         Module linguistique géorgien pour Office 2007

·         Module linguistique oriya pour Office 2007

Thierry Fontenelle

Microsoft Natural Language Group

Posted Sunday, September 28, 2008 2:41 AM by OrthoFR | 1 Comments

Windows Live Translator utilise uniquement le système de traduction automatique de Microsoft Research

Mes collègues de Microsoft Research l’annonçaient il y a quelques jours : toutes les paires de langues offertes par le système de traduction automatique Windows Live Translator sont désormais basées sur le système développé en interne par MSR. Comme je l’avais indiqué précédemment, le système utilisait auparavant le moteur de traduction automatique de Systran. Après avoir effectué un premier basculement vers le système interne de TA en juin dernier pour l’anglais-espagnol, ce sont désormais 23 paires de langues qui utilisent le système « maison » MSR-MT :

  • Anglais vers et à partir de:
    • arabe
    • chinois simplifié
    • chinois traditionnel
    • néerlandais
    • français
    • allemand
    • italien
    • japonais
    • coréen
    • portugais
    • russe (uniquement dans la direction russe à anglais)
    • espagnol
  • A ces paires s’ajoute la conversion “chinois simplifié”↔ “chinois traditionnel”

Vous verrez donc un joli logo vous annonçant « Translation powered by Microsoft Translator ».

Les services de traduction automatique sont disponibles à partir des produits suivants :

·         Live Search

·         Internet Explorer 8 (l’Accélérateur disponible dans IE8 vous permet d’accéder à la traduction automatisée d’un site web sans devoir copier & coller le texte ; il suffit de le sélectionner et de choisir « Translate With Windows Live » pour afficher la traduction – assez impressionnant, je l’avoue)

·         Windows Live Toolbar

·         Windows Live Messenger (je vous conseille Tbot, le “robot” de TA incorporé à ce service : il suffit d’ajouter mtbot@hotmail.com à vos contacts et de commencer à chatter, seul avec le « bot » ou en groupe)

·         Office 2007 (voir les instructions pour activer le service de traduction automatique directement dans le volet de référence d’Office 2007 ; ce service est aussi disponible pour Office 2003).

Pour terminer, si le sujet vous passionne et que votre intérêt est plus académique, je vous conseille ce billet de Will Lewis sur la traduction automatique basée sur les méthodes statistiques (statistical machine translation), qui présente brièvement la philosophie de ce type de système et inclut quelques références qui pourront vous être utiles.

Comme vous pouvez le constater, ça bouge du côté de la traduction automatique et mes collègues de MSR ne sont pas restés inactifs. Nous vivons une époque passionnante, n’est-ce pas ?

Thierry Fontenelle

Microsoft Natural Language Group

 

Posted Saturday, September 13, 2008 8:36 PM by OrthoFR | 4 Comments

L’orthographe révisée est la référence dans les programmes scolaires 2008-2009 de l’Education Nationale

Voici une nouvelle qui intéressera les enseignants. Les programmes scolaires 2008-2009 du Ministère français de l’Education Nationale sont disponibles depuis quelques jours sur Internet. Comme le souligne le GQMNF (Groupe québécois de modernisation de la norme du français) dans une circulaire électronique que je viens de recevoir, ces programmes scolaires indiquent clairement que l’orthographe rectifiée est la référence pour l’enseignement et que les professeurs doivent tenir compte des rectifications orthographiques dont j’ai parlé à de nombreuses reprises sur ce blog.

Je cite les passages cruciaux :

Bulletin officiel spécial n°6 du 28 aout 2008 (Programmes du collège, p.2, section « Orthographe ») :

Pour l’enseignement de la langue française, le professeur tient compte des rectifications de l’orthographe proposées par le Rapport du Conseil supérieur de la langue française, approuvées par l’Académie française (Journal officiel de la République française du 6 décembre 1990).

Bulletin officiel hors-série n° 3 du 19 juin 2008 (Programmes de l’école primaire, p.37) :

N.B. :

L’ensemble des connaissances et compétences attendues s’applique à toutes les situations d’écriture énoncées plus haut et non rappelées dans cette rubrique.  L’orthographe révisée est la référence.

 

Il est effectivement difficile d’être plus clair. Comme vous le savez, le correcteur orthographique d’Office tient compte de ces formes « rectifiées » et accepte par défaut tant l’orthographe traditionnelle que l’orthographe rectifiée, conformément aux recommandations officielles. Cela explique pourquoi le correcteur de Word accepte les graphies reconnait, disparait, aigüe, opèrera ou des après-midis et des matchs, au même titre que les formes traditionnelles reconnaît, disparaît, aiguë, opérera ou des après-midi et des matches (vous trouverez d’autres exemples ici). Il est très facile de changer l’option par défaut dans Office 2007 et de ne plus accepter que les formes rectifiées, si vous le souhaitez (une option très utile pour l’enseignant qui souhaite enseigner ces formes rectifiées, comme le précisent les tutoriels et modules pédagogiques disponibles sur le site Education de Microsoft France).

 

On atteint donc effectivement un point de non-retour et il n’est plus possible d’ignorer ces rectifications.

 

Le paragraphe suivant repris dans les programmes du collège (p.2) est également intéressant (c’est moi qui souligne):

L’élève apprend par ailleurs à consulter et à utiliser régulièrement et méthodiquement le dictionnaire, le manuel de grammaire, le guide de conjugaison ou encore à se servir, avec discernement et sans y voir  un outil qui le dispenserait de la réflexion, d’un logiciel de correction orthographique adapté.

J’aime beaucoup cette idée d’utiliser les logiciels de vérification linguistique dans une perspective pédagogique liant discernement et réflexion. Il est important de connaitre les limites de ces logiciels, très utiles au demeurant, et la réflexion liée à leur utilisation vaut son pesant d’or.

Thierry Fontenelle

Microsoft Natural Language Group

 

 

Posted Sunday, September 07, 2008 8:31 PM by OrthoFR | 4 Comments

Packs linguistiques d’Office 2007 disponibles pour l’ouzbek, l’assamais, le kirghiz et le malayalam

De nouveaux modules linguistiques pour Office 2007 sont à présent disponibles pour une série de nouvelles langues, parmi lesquelles :

·          l’ouzbek (parlé par 20 millions de personnes en Ouzbékistan)

·         l’assamais (langue officielle de l’Assam, au nord-est de l’Inde, parlée par 13 millions de personnes)

·         le kirghiz (langue officielle de la République du Kirghizistan, en Asie Centrale, parlée par 2 millions de personnes)

·         le malayalam (une des 22 langues officielles de l’Inde, parlée par 36 millions de personnes, entre autres dans l’Etat du Kerala et sur le Territoire de Pondichéry – j’ai eu l’occasion de parler sur ce blog d’un outil, le Microsoft Transliteration Utility, créé par notre groupe et permettant d’effectuer , entre autres, la translittération entre l’alphabet romain et celui utilisé par le malayalam)

Outre la possibilité de changer la langue de l’interface utilisateur, les usagers de ces modules linguistiques disposent également d’un correcteur orthographique.

Le Malayalam disposait déjà d’un vérificateur d’orthographe pour les versions précédentes d’Office. Les trois autres langues, par contre, ne disposaient pas encore de correcteur. Les dictionnaires pilotant ces nouveaux correcteurs orthographiques ont été développés à l’aide du Lexicon Creator, un outil interne que j’ai eu l’occasion de présenter en juillet dernier au congrès de l’Association Européenne de Lexicographie (Euralex) à Barcelone.

Je rappelle que les LIP (Language Interface Packs) sont produits dans le cadre du Microsoft Local Language Program, dont le but est de préserver les langues et les cultures locales et régionales en permettant aux utilisateurs d’outils informatiques de travailler avec des interfaces dans leurs propres langues. Ces LIP peuvent être téléchargés gratuitement (suivez les liens à partir des langues ci-dessus).

Thierry Fontenelle

Microsoft Natural Language Group

Posted Monday, September 01, 2008 1:48 AM by OrthoFR | 1 Comments

More Posts Next page »
Page view tracker