Cette affaire de « Reverso » reprise par Le Monde (ci-dessous) est un modèle de Fake News. Les « journalistes » font du copié-collé de déclarations venant de blogs, histoire de raconter à toute vitesse des « news ». Le patron de Reverso, Theo Hoffenberg, qui connait parfaitement la Communauté juive et Israël, et a toujours marqué son admiration pour la « Israël StartUp Nation » au point de s’implanter à Tel-Aviv (Urban Place) est accusé sans ménagements.
La polémique est ridicule, car il suffisait de signaler à Reverso le problème technique (réel) pour que la société réagisse. Faire croire une seconde que Reverso soit anti-israélien, raciste… est absurde et contre-productif. Des problèmes techniques voient le jour sans cesse lorsqu’on utilise des technologies et algorithmes complexes, comme cela est le cas de Reverso. Google, Facebook… font face sans arrêt à des bugs, corrigés très vite. (DR)
LE PLUS. Dans Le Monde : « Hitler était beaucoup plus gentil envers les juifs qu’ils le méritaient. » Tel est le troisième résultat qui s’affichait jusqu’à jeudi 28 février sur le site de traduction Reverso Context quand on lui demandait une traduction contextualisée, en français, du mot anglais nicer (« plus gentil »). L’expression much nicer (« beaucoup mieux ») donne, elle, en troisième résultat « Dachau était beaucoup mieux qu’Auschwitz ».
Problème similaire quand on cherchait le mot jews (« juifs ») : parmi les phrases proposées contenant une traduction de ce mot s’affichaient « il y a trop de juifs par ici », « les juifs souillent le sang allemand », « c’est pourquoi les juifs sont si dangereux » ou encore « voici l’exemple ultime de comment les juifs contrôlent l’Amérique ».
Des résultats qui ont provoqué la colère de la Ligue internationale contre le racisme et l’antisémitisme (Licra). Jeudi 28 février, elle a interpellé Reverso sur Twitter et l’a menacé d’éventuelles « poursuites pénales » :
« Visiblement, il y a un gros problème chez Reverso avec des propositions de traduction trempées dans l’antisémitisme. Une réponse est attendue vite ! La Licra saisit sa commission juridique afin d’examiner si des poursuites pénales sont envisageables. »
« Nous sommes désolés »
Quelques heures plus tard, le compte Twitter de Reverso, sis en France, lui a répondu, expliquant que ces exemples seraient supprimés « d’ici un mois normalement » :
« Nous sommes désolés, les exemples proviennent de livres, de films, et ne sont pas revus manuellement. Tous les exemples signalés incorrects seront supprimés de la prochaine version, d’ici un mois normalement. »
Comment cela a-t-il pu arriver ? Il faut d’abord comprendre comment fonctionne Reverso. Pour proposer des morceaux de phrases dans deux langues, le service aspire d’énormes corpus de textes disposant de plusieurs traductions. Les documents officiels européens, par exemple, sont une mine d’or pour un tel service de traduction, puisqu’ils existent tous dans chaque langue des pays de l’Union européenne. Mais Reverso s’appuie également sur d’autres corpus de textes disponibles sur Internet, comme le service l’explique sur son site : d’innombrables sous-titres de films (par exemple, l’intégralité des sous-titres du site Open Subtitles), des livres, des brevets, des catalogues de produits…
Or, explique au Monde le PDG de Reverso, Théo Hoffenberg, « si vous prenez un film comme Inglourious Basterds, par exemple, vous pouvez y trouver des phrases très dures. On pourrait aussi trouver ce type de phrases dans un livre expliquant : “Voici ce que certaines personnes soutiennent.” ». Résultat : celles-ci réapparaissent hors contexte sur Reverso.
Pourquoi, alors, ne pas examiner ces textes pour retirer les passages qui, sortis de leur contexte, deviendraient problématiques ? « C’est impossible de les filtrer manuellement, on a plus de quatre-vingts combinaisons de langues et cent millions d’exemples [de courtes phrases] par langue », affirme le PDG. Un filtrage automatique existe bien pour les fautes d’orthographe les plus fréquentes, mais le reste est plus difficile à dénicher, souligne-t-il : « On se pose toutefois la question d’enlever tout ce qui contient des termes potentiellement polémiques. »
Il juge « regrettables » les cas signalés par la Licra : « Normalement, ça ne devrait pas apparaître. » Théo Hoffenberg mentionne l’existence d’un bouton, lié à chaque résultat, permettant de le signaler s’il pose un problème : « Tous les trois mois environ, on supprime les exemples remontés qui sont incorrects. » Un délai qui paraît énorme à l’échelle d’Internet – tout comme le mois annoncé pour supprimer les résultats dénoncés par la Licra. « Ce n’est pas simple, il faut tout recalculer sur l’ensemble du corpus », plaide le PDG, qui assure qu’il ne s’agit pas d’une banale mise à jour. « Mais là on va essayer d’accélérer au maximum. » Résultat : Reverso a finalement réussi a se débarrasser, vendredi 1er mars, de quelques uns des exemples antisémites relevés par la Licra.
« La plupart des animaux détestent les Noirs »
Théo Hoffenberg précise que « des exemples comme celui de la Licra, il y en a eu deux fois en cinq ans à peu près ». Dans un tout autre registre, le site s’était déjà fait remarquer pour des résultats pornographiques en 2015.
Il reste toutefois facile de trouver, selon les constatations du Monde, d’autres types de résultats problématiques avec différents mots-clés. En cherchant une traduction pour « les Noirs », Reverso Context propose par exemple « des faits connus : les Noirs emménagent, le crime augmente » ou « pour être honnête, la plupart des animaux détestent les Noirs ».