LEMONDE.FR | 23.02.10 | 20h22 Mis jour le 23.02.10 | 22h35
Un logiciels de traduction automatique de l'entreprise Systran. Cette version a
t sp cifiquement adapt e au "domaine" de la communication financi re.
"Au fil des ans, nous avons appris ajouter rapidement de nouveaux langages
Google Traduction. Pour nous, c'est devenu facile ; cette ann e, nous avons d
cid de nous concentrer sur un plus grand d fi et d'am liorer la qualit de
notre service de traduction automatique." Alfred Spector, le vice-pr sident
charg de la recherche et des projets chez Google, est s r de lui : les
subtiles difficult s de la traduction automatis e peuvent tre r solues br ve
ch ance. "Notre approche, c'est 'l'intelligence hybride', la combinaison de
l'informatique et des apports humains, gr ce aux suggestions de nos
utilisateurs."
Vers la traduction vocale en temps r el
Google souhaite s'appuyer sur l'am lioration de ses traductions automatiques
pour proposer, d'ici cinq ans, un service vocal de traduction en temps r el.
Th oriquement, cela permettrait deux personnes de parler au t l phone,
chacune dans sa langue. "Ce n'est pas du tout aberrant, juge Marie Candito. Le
principal probl me, c'est que la reconnaissance vocale elle-m me est source
d'ambigu t s, m me si, dans certains cas, la traduction peut aider les r
soudre : confront une ambigu t lors de l' tape de reconnaissance vocale, le
syst me peut conserver les deux options, et trancher ensuite lors de la
traduction."
En parall le, Google travaille donc perfectionner la reconnaissance vocale,
une technologie qui est galement la cl d'autres services que l'entreprise
souhaite d velopper, comme la transcription de vid os et, surtout, la recherche
dirig e par la voix. "La lecture automatique d'un texte est peu pr s au
point. Mais le taux d'erreurs dans la reconnaissance vocale est trop important,
note Alfred Spector. Lorsque je fais le test avec la voix de mon fils, seuls 30
% des mots sont correctement reconnus."
Google peut-il r ellement am liorer de mani re significative son outil de
traduction, aujourd'hui tr s imparfait ? Le service doit compter aujourd'hui
avec deux difficult s principales. Tout d'abord, c'est un outil g n raliste,
cens pouvoir s'adapter tous types de textes, qu'il s'agisse de documents
techniques, d'articles de journaux ou de textes litt raires. "C'est un
positionnement ambitieux", note Marie Candito, ma tre de conf rences en
linguistique l'universit Paris-VII et sp cialis e dans le traitement
automatique des langues. "Les entreprises sp cialis es dans la traduction
travaillent toutes sur des 'domaines', labor s partir des documents de leurs
clients. Cela leur permet, notamment, de r duire de mani re importante la polys
mie." Dans un contexte juridique, par exemple, le sens du mot "avocat" ne sera
bien s r pas le m me que dans un contexte culinaire.
Autre d fi pour le moteur de recherche : son mod le de traduction, qui s'appuie
sur la statistique, permet d'obtenir des phrases qui "sonnent" bien dans la
langue cible, mais au prix d'un plus grand risque de contresens. Il existe en
effet deux approches principales pour la traduction automatique.
Historiquement, les outils de traduction automatique fonctionnent par r gles :
les machines "apprennent" les r gles de syntaxe, de grammaire, et les
appliquent au texte pour le traduire. Google s'appuie sur une autre approche,
plus r cente, qui fonctionne par analogie statistique. L'entreprise compare
d'importants corpus de textes dans les deux langues, par exemple les documents
publi s par l'Union europ enne, et en d duit des r gles de traduction. "Plus
nous avons de donn es comparer, plus le r sultat sera bon", explique M.
Spector.
L' QUILIBRE ENTRE PR CISION ET FLUIDIT
L'approche statistique a un avantage majeur : elle aboutit des phrases plus
coh rentes, qui semblent plus naturelles parce qu'elles ressemblent des
phrases labor es par des humains. Mais elle n'a pas la pr cision de l'approche
par r gles. "Pour sch matiser, si vous prenez deux phrases en anglais,
strictement identiques mais avec, dans un cas, un verbe au pr sent, et dans
l'autre un verbe au futur, c'est une diff rence de sens majeure. Mais pour un
moteur statistique, la diff rence entre les deux phrases est minime, et le plus
souvent il traduira les deux phrases de la m me mani re", explique Pierre
Bernassau, directeur marketing chez Systran, entreprises pionni re dans la
traduction par r gles.
Les deux approches sont loin d' tre incompatibles. Systran a d'ailleurs enrichi
l'an dernier son syst me par r gles d'un syst me statistique, pour aboutir un
moteur hybride, et l'entreprise juge que cela lui a permis un bond qualitatif
qu'elle n'aurait pu atteindre autrement. "Il y a quelques ann es, le niveau de
qualit de nos traductions n' tait pas suffisant pour int resser les
traducteurs professionnels ; utilis e seule, la traduction par r gles donne des
traductions pr cises, mais tr s litt rales. Aujourd'hui, nous sommes sollicit s
par des agences de traduction, pour qui nos logiciels deviennent des outils
suffisamment efficaces pour leur faire gagner du temps", note M. Bernassau.
Chez Google, on lorgne aussi une approche double. "Nous avons besoin
d'introduire davantage de syntaxe dans notre outil", juge ainsi M. Spector.
Mais l'entreprise compte surtout sur sa gigantesque base d'utilisateurs pour am
liorer la qualit de ses traductions automatiques. Depuis plusieurs semaines,
elle d ploie un outil qui permet aux utilisateurs de sugg rer une meilleure
traduction. Coupl e aux diff rents services de la marque, qui fournissent
galement une importante base de donn es de textes, cette fonctionnalit devrait
permettre d'obtenir une am lioration significative sur le long terme, estime
l'entreprise.
L' volution vers une meilleure qualit ne pourra de toute mani re se faire que
tr s graduellement, en partie cause du choix de mod le de Google. "Les syst
mes bas s sur les r gles sont assez lourds mettre en place, mais ils ont
l'avantage d' tre facilement mofidiables, par l'ajout ou la suppression de r
gles. Dans l'approche statistique, telle que la pratique Google, l' diteur a
moins de prise sur le syst me", d taille Marie Candito. Pour la chercheure,
l'apport des internautes peut avoir une utilit , mais celle-ci restera au mieux
marginale.
Mais si la combinaison de r gles et d'un outil statistique semble tre la voie
la plus prometteuse pour am liorer la traduction automatique, l' quilibre entre
les deux approches reste d licat fixer. Le moteur hybride de Systran, par
exemple, a n cessit cinq ann es de recherche. Et il faut galement compter
avec la diversit des langues : en fonction de la structure de la langue source
et de celle de la langue cible, l'approche par r gles, par exemple, sera plus
ou moins efficace. Dans tous les cas, "l'analyseur parfait n'existe pas
encore", r sume Mme Candito.
Damien Leloup