La mont e en puissance de la traduction automatique

LEMONDE.FR | 23.02.10 | 20h22 Mis jour le 23.02.10 | 22h35

Un logiciels de traduction automatique de l'entreprise Systran. Cette version a

t sp cifiquement adapt e au "domaine" de la communication financi re.

"Au fil des ans, nous avons appris ajouter rapidement de nouveaux langages

Google Traduction. Pour nous, c'est devenu facile ; cette ann e, nous avons d

cid de nous concentrer sur un plus grand d fi et d'am liorer la qualit de

notre service de traduction automatique." Alfred Spector, le vice-pr sident

charg de la recherche et des projets chez Google, est s r de lui : les

subtiles difficult s de la traduction automatis e peuvent tre r solues br ve

ch ance. "Notre approche, c'est 'l'intelligence hybride', la combinaison de

l'informatique et des apports humains, gr ce aux suggestions de nos

utilisateurs."

Vers la traduction vocale en temps r el

Google souhaite s'appuyer sur l'am lioration de ses traductions automatiques

pour proposer, d'ici cinq ans, un service vocal de traduction en temps r el.

Th oriquement, cela permettrait deux personnes de parler au t l phone,

chacune dans sa langue. "Ce n'est pas du tout aberrant, juge Marie Candito. Le

principal probl me, c'est que la reconnaissance vocale elle-m me est source

d'ambigu t s, m me si, dans certains cas, la traduction peut aider les r

soudre : confront une ambigu t lors de l' tape de reconnaissance vocale, le

syst me peut conserver les deux options, et trancher ensuite lors de la

traduction."

En parall le, Google travaille donc perfectionner la reconnaissance vocale,

une technologie qui est galement la cl d'autres services que l'entreprise

souhaite d velopper, comme la transcription de vid os et, surtout, la recherche

dirig e par la voix. "La lecture automatique d'un texte est peu pr s au

point. Mais le taux d'erreurs dans la reconnaissance vocale est trop important,

note Alfred Spector. Lorsque je fais le test avec la voix de mon fils, seuls 30

% des mots sont correctement reconnus."

Google peut-il r ellement am liorer de mani re significative son outil de

traduction, aujourd'hui tr s imparfait ? Le service doit compter aujourd'hui

avec deux difficult s principales. Tout d'abord, c'est un outil g n raliste,

cens pouvoir s'adapter tous types de textes, qu'il s'agisse de documents

techniques, d'articles de journaux ou de textes litt raires. "C'est un

positionnement ambitieux", note Marie Candito, ma tre de conf rences en

linguistique l'universit Paris-VII et sp cialis e dans le traitement

automatique des langues. "Les entreprises sp cialis es dans la traduction

travaillent toutes sur des 'domaines', labor s partir des documents de leurs

clients. Cela leur permet, notamment, de r duire de mani re importante la polys

mie." Dans un contexte juridique, par exemple, le sens du mot "avocat" ne sera

bien s r pas le m me que dans un contexte culinaire.

Autre d fi pour le moteur de recherche : son mod le de traduction, qui s'appuie

sur la statistique, permet d'obtenir des phrases qui "sonnent" bien dans la

langue cible, mais au prix d'un plus grand risque de contresens. Il existe en

effet deux approches principales pour la traduction automatique.

Historiquement, les outils de traduction automatique fonctionnent par r gles :

les machines "apprennent" les r gles de syntaxe, de grammaire, et les

appliquent au texte pour le traduire. Google s'appuie sur une autre approche,

plus r cente, qui fonctionne par analogie statistique. L'entreprise compare

d'importants corpus de textes dans les deux langues, par exemple les documents

publi s par l'Union europ enne, et en d duit des r gles de traduction. "Plus

nous avons de donn es comparer, plus le r sultat sera bon", explique M.

Spector.

L' QUILIBRE ENTRE PR CISION ET FLUIDIT

L'approche statistique a un avantage majeur : elle aboutit des phrases plus

coh rentes, qui semblent plus naturelles parce qu'elles ressemblent des

phrases labor es par des humains. Mais elle n'a pas la pr cision de l'approche

par r gles. "Pour sch matiser, si vous prenez deux phrases en anglais,

strictement identiques mais avec, dans un cas, un verbe au pr sent, et dans

l'autre un verbe au futur, c'est une diff rence de sens majeure. Mais pour un

moteur statistique, la diff rence entre les deux phrases est minime, et le plus

souvent il traduira les deux phrases de la m me mani re", explique Pierre

Bernassau, directeur marketing chez Systran, entreprises pionni re dans la

traduction par r gles.

Les deux approches sont loin d' tre incompatibles. Systran a d'ailleurs enrichi

l'an dernier son syst me par r gles d'un syst me statistique, pour aboutir un

moteur hybride, et l'entreprise juge que cela lui a permis un bond qualitatif

qu'elle n'aurait pu atteindre autrement. "Il y a quelques ann es, le niveau de

qualit de nos traductions n' tait pas suffisant pour int resser les

traducteurs professionnels ; utilis e seule, la traduction par r gles donne des

traductions pr cises, mais tr s litt rales. Aujourd'hui, nous sommes sollicit s

par des agences de traduction, pour qui nos logiciels deviennent des outils

suffisamment efficaces pour leur faire gagner du temps", note M. Bernassau.

Chez Google, on lorgne aussi une approche double. "Nous avons besoin

d'introduire davantage de syntaxe dans notre outil", juge ainsi M. Spector.

Mais l'entreprise compte surtout sur sa gigantesque base d'utilisateurs pour am

liorer la qualit de ses traductions automatiques. Depuis plusieurs semaines,

elle d ploie un outil qui permet aux utilisateurs de sugg rer une meilleure

traduction. Coupl e aux diff rents services de la marque, qui fournissent

galement une importante base de donn es de textes, cette fonctionnalit devrait

permettre d'obtenir une am lioration significative sur le long terme, estime

l'entreprise.

L' volution vers une meilleure qualit ne pourra de toute mani re se faire que

tr s graduellement, en partie cause du choix de mod le de Google. "Les syst

mes bas s sur les r gles sont assez lourds mettre en place, mais ils ont

l'avantage d' tre facilement mofidiables, par l'ajout ou la suppression de r

gles. Dans l'approche statistique, telle que la pratique Google, l' diteur a

moins de prise sur le syst me", d taille Marie Candito. Pour la chercheure,

l'apport des internautes peut avoir une utilit , mais celle-ci restera au mieux

marginale.

Mais si la combinaison de r gles et d'un outil statistique semble tre la voie

la plus prometteuse pour am liorer la traduction automatique, l' quilibre entre

les deux approches reste d licat fixer. Le moteur hybride de Systran, par

exemple, a n cessit cinq ann es de recherche. Et il faut galement compter

avec la diversit des langues : en fonction de la structure de la langue source

et de celle de la langue cible, l'approche par r gles, par exemple, sera plus

ou moins efficace. Dans tous les cas, "l'analyseur parfait n'existe pas

encore", r sume Mme Candito.

Damien Leloup