J’étais il y a quelques jours au congrès de l’ACFAS à Montréal, où je participais au symposium sur la description linguistique pour le traitement automatique du français. J’avais été invité à y parler des outils de vérification linguistique de Microsoft Office. En me promenant dans les rues de Montréal, j’ai été frappé par une différence très importante entre le français européen et le français tel qu’il est utilisé au Québec. Je veux parler ici des traits d’union, bien plus fréquents en français québécois. Je ne parle pas du trait d’union que l’on trouve dans les clitiques tels que « cette maison-là » ou « ce livre-ci » ou dans les séquences verbe-complément telles que « lisez-moi ce passage » ou « regarde-les ». Je ne parle pas non plus des traits d’union présents dans les mots composés tels que grand-mère, tire-lait ou taille-crayon. Il n’y a pas de différence particulière entre le français « européen » et le français québécois en ce qui concerne ces tournures ou ces mots composés. Par contre, dès qu’il s’agit de nommer les lieux géographiques, on s’aperçoit que le Québécois fait un usage plus important des traits d’union : on ne compte plus les occurrences de ce caractère sur les panneaux de signalisation, qu’il s’agisse du Vieux-Port, du centre-ville, du Vieux-Centre, de la station de métro Université-de-Montréal, du parc Jean-Drapeau, du parc René-Lévesque, du Plateau-Mont-Royal, de l’arrondissement de Ville-Marie, et j’en passe…

 

J’ai parlé il y a quelque temps des problèmes que les linguistes-informaticiens rencontrent lorsqu’ils doivent d’abord déterminer les frontières des mots. Ce processus, connu en anglais sous le nom de tokenization ou de word-breaking, permet de séparer un point ou une virgule du mot auquel ces signes de ponctuation sont collés, par exemple. Il est nécessaire de déterminer pour une application donnée si l’apostrophe et le trait d’union sont des caractères « séparables » (breaking characters) ou « inséparables ». Comme je l’ai montré précédemment, ces questions sont cruciales et pas toujours si simples à résoudre: le lexique d’un correcteur orthographique ne comprend généralement pas des séquences telles que l’école, s’imagine ou d’hier. On a chaque fois affaire à deux mots (l’+école, s’+imagine, d’+hier). De la même façon, dans « les relations employeurs-employés » ou « le match France-Canada », le trait d’union est « séparable », c’est-à-dire qu’il sépare des tokens distincts. L’ancien correcteur orthographique français d’Office considérait toutefois le trait d’union comme un caractère inséparable (ce qui est tout à fait justifié pour des mots tels que porte-avion, tire-lait ou grand-mère). L’inconvénient était que les composés productifs tels que France-Canada, employeurs-employés, etc. étaient soulignés par le correcteur, qui les considérait comme des formes non correctes, tout simplement parce qu’elles n’étaient pas présentes dans le dictionnaire du correcteur. On n’ose imaginer le cauchemar du lexicographe à qui on aurait demandé d’inclure ces formes dans le lexique. On aurait assisté à une croissance exponentielle (non désirée) du lexique (où s’arrêter? Si on ajoute France-Canada, il faut aussi mettre France-Italie, Belgique-Espagne, patrons-ouvriers, etc…). Impossible de tout prévoir, bien sûr. C’est aussi ce qui explique que ce correcteur soulignait à tort bon nombre d’entités géographiques québécoises telles que celles qui sont citées ci-dessus (du moins toutes celles qui n’étaient pas directement reprises dans le lexique).

 

En décidant de modifier la nature du trait d’union dans le séquenceur (word-breaker) qui se trouve à la base du nouveau correcteur orthographique français, nous sommes parvenus à réduire de 73% le nombre de fausses alertes, puisque ces combinaisons productives ne sont plus soulignées en rouge et donc plus considérées comme fautives. Plusieurs collègues québécois m’ont fait part de leur satisfaction quant à cette décision qui représente un changement positif très important pour l’utilisateur de nos outils linguistiques : plus question en effet de souligner le mot composé dans l’expression « métro Université-de-Montréal ». Même si le composé n’est pas présent dans le lexique, le correcteur cassant la chaîne sur le trait d’union vérifie chaque unité de façon distincte. On ne verra donc apparaître les soulignements rouges que s’il y a réellement une faute, par exemple dans « métro Universite-de-montréal » (l’accent manque sur Universite et la majuscule est absente sur montréal, ce qui explique que ces deux mots seront soulignés). Le nouveau correcteur orthographique est donc bien plus utile et fiable et cette amélioration est due à un changement de conception du module reconnaissant les mots, sans qu’il ait été nécessaire d’ajouter des milliers d’entrées au dictionnaire. Si vous écrivez Villepin-Sarkozi, le correcteur vous signalera que Sarkozi s’écrit en fait Sarkozy avec -y, mais vous n’aurez pas l’attention inutilement attirée sur une faute inexistante si vous orthographiez ces noms correctement, même en les unissant par un trait d’union. Je me dois évidemment d'ajouter que nous avons mis en place des procédures spéciales pour souligner des fautes très fréquentes telles que portes-avions ou tires-fesses, où il n'est pas question de couper la chaîne de caractères sur le trait d'union et de considérer le mot comme correctement orthographié sous le prétexte que portes ou tires sont des mots corrects (porte- et tire- sont invariables dans ces contextes).

 

Comme on le voit, un changement apparemment anodin peut avoir des conséquences très importantes pour l’utilisateur. Je suis heureux d’avoir pu constater que ces changements n’étaient pas passés inaperçus auprès des nombreux utilisateurs québécois qui ont téléchargé nos nouveaux outils linguistiques. Je savais qu’ils étaient sensibles à la féminisation des noms de métiers (les professeures, ingénieures et autres auteures que j’ai rencontrées au Canada ne me démentiront pas), de même qu’aux rectifications orthographiques (sait-on que Forum, le journal de l’Université de Montréal est publié en nouvelle orthographe toutes les semaines depuis janvier 2005 et que l’Office québécois de la langue française considère les « nouvelles » graphies comme non fautives?). Le trait d’union est donc une autre facette de ces améliorations linguistiques significatives…

 

Thierry Fontenelle

Microsoft Speech & Natural Language group