J’ai assisté il y a quelques jours au congrès de TALN 2006 sur le traitement automatique du langage à Leuven. Les organisateurs m’avaient invité à y parler de nos nouveaux outils linguistiques et j’ai donc pu y présenter notre nouveau correcteur orthographique français, mais aussi notre nouveau correcteur grammatical. J’ai essayé de montrer que la correction orthographique ne se résume pas, loin de là, à comparer des chaines de caractères d’un texte au contenu d’un dictionnaire. Bien sûr, on a beaucoup parlé de la prise en compte dans ce correcteur des recommandations de l’Académie française ou du Conseil supérieur de la langue française. On y a aussi parlé de la prise en compte de la féminisation des noms de métiers, applaudie par tous nos utilisateurs. Mais j’ai essayé de montrer que les améliorations ne se résument pas à ces deux aspects de l’évolution de la langue. Les traits d’union dans les mots composés posent des problèmes intéressants pour le linguiste informaticien (faut-il les considérer comme des caractères séparables, comme dans « le match France-Belgique », ou comme faisant partie intégrante du mot composé, comme dans « porte-avion » ?). Dans le premier cas, on souhaite ne pas souligner France-Belgique, même si la chaine de caractère n’est évidemment pas dans le lexique (les mots « France » et « Belgique » devront donc être vérifiés de façon distincte par le correcteur). Par contre, pour « porte-avion », on souhaite considérer le tout comme un seul mot (si on ne le faisait pas, on courrait le risque de considérer une faute comme « portes-avions » comme correcte (il s’agit d’une erreur très fréquente, alors que le mot « porte » est invariable dans ce contexte). Le correcteur faillirait donc à sa tâche… Comme on le voit, ce simple exemple suffit à montrer que la correction orthographique n’est pas si simple. Comme le disent les organisateurs du congrès dans leur compte-rendu du Congrès TALN 2006:

 

Si le développement de l’informatique a banalisé l’usage d’outils comme les correcteurs orthographiques ou les logiciels de reconnaissance de la parole (qui sont présents par défaut dans les systèmes opératoires modernes), le public comprend en général assez mal leur mode de fonctionnement et ne perçoit pas nécessairement les difficultés fondamentales que l’on rencontre dans leur conception.

 

C’était donc un vrai plaisir de pouvoir parler de ces outils, mais aussi de pouvoir revoir et écouter tant de chercheurs et d’enseignants de ce domaine passionnant. On y a parlé de résumé automatique de textes, de traitement automatique de l’arabe (dont les lexiques non voyellés posent des problèmes très spécifiques au linguiste), ou d’apprentissage des langues à l’aide des outils de TAL (nos collègues louvanistes Serge Verlinde et Jean Binon font à cet égard des choses remarquables avec leurs projets DAFLES sur le Dictionnaire d'apprentissage du français langue étrangère ou seconde et ALFALEX -environnement d'apprentissage (inter)actif pour non-francophones - lexique - http://www.kuleuven.ac.be/grelep/accueil.htm). Le congrès a aussi abordé la thématique des ressources lexicales pour la traduction automatique, de même que la reconnaissance automatique de la langue des signes, l’extraction de collocations dans les corpus de textes, les systèmes de questions-réponses, la fouille de textes  et même le traitement de nouvelles formes de l’écrit comme les SMS, un domaine que nos collègues de l’Université Catholique de Louvain, dirigés par Cédrick Fairon, ont exploré tout récemment pour compiler un corpus impressionnant de 70.000 SMS en français.

 

Pour ceux que cela intéresse, ma présentation est publiée dans les Actes du congrès (

http://www.i6doc.com/doc/taln2006) sous les références suivantes :

 

Fontenelle, Th. Les nouveaux outils de correction linguistique de Microsoft. In Mertens, P., Fairon, C, Dister, A ; & Watrin, P (éds) TALN06 – Verbum ex machina – Actes de la 13ème Conférence sur le traitement automatique des langues naturelles (Leuven 10-13 avril 2006). UCL, Presses Universitaires de Louvain, pp. 3-19.

 

C’était une bien belle rencontre !

 

Thierry Fontenelle

Microsoft Speech & Natural Language