« Visiblement, il y a un gros problème chez Reverso avec des propositions de traduction trempées dans l’antisémitisme. Une réponse est attendue vite ! La Licra saisit sa commission juridique afin d’examiner si des poursuites pénales sont envisageables. »
« Nous sommes désolés »
Quelques heures plus tard, le compte Twitter de Reverso, sis en France, lui a répondu, expliquant que ces exemples seraient supprimés « d’ici un mois normalement » :« Nous sommes désolés, les exemples proviennent de livres, de films, et ne sont pas revus manuellement. Tous les exemples signalés incorrects seront supprimés de la prochaine version, d’ici un mois normalement. »
Comment cela a-t-il pu arriver ? Il faut d’abord comprendre comment fonctionne Reverso. Pour proposer des morceaux de phrases dans deux langues, le service aspire d’énormes corpus de textes disposant de plusieurs traductions. Les documents officiels européens, par exemple, sont une mine d’or pour un tel service de traduction, puisqu’ils existent tous dans chaque langue des pays de l’Union européenne. Mais Reverso s’appuie également sur d’autres corpus de textes disponibles sur Internet, comme le service l’explique sur son site : d’innombrables sous-titres de films (par exemple, l’intégralité des sous-titres du site Open Subtitles), des livres, des brevets, des catalogues de produits… Or, explique au Monde le PDG de Reverso, Théo Hoffenberg, « si vous prenez un film comme Inglourious Basterds, par exemple, vous pouvez y trouver des phrases très dures. On pourrait aussi trouver ce type de phrases dans un livre expliquant : “Voici ce que certaines personnes soutiennent.” ». Résultat : celles-ci réapparaissent hors contexte sur Reverso. Pourquoi, alors, ne pas examiner ces textes pour retirer les passages qui, sortis de leur contexte, deviendraient problématiques ? « C’est impossible de les filtrer manuellement, on a plus de quatre-vingts combinaisons de langues et cent millions d’exemples [de courtes phrases] par langue », affirme le PDG. Un filtrage automatique existe bien pour les fautes d’orthographe les plus fréquentes, mais le reste est plus difficile à dénicher, souligne-t-il : « On se pose toutefois la question d’enlever tout ce qui contient des termes potentiellement polémiques. » Il juge « regrettables » les cas signalés par la Licra : « Normalement, ça ne devrait pas apparaître. » Théo Hoffenberg mentionne l’existence d’un bouton, lié à chaque résultat, permettant de le signaler s’il pose un problème : « Tous les trois mois environ, on supprime les exemples remontés qui sont incorrects. » Un délai qui paraît énorme à l’échelle d’Internet – tout comme le mois annoncé pour supprimer les résultats dénoncés par la Licra. « Ce n’est pas simple, il faut tout recalculer sur l’ensemble du corpus », plaide le PDG, qui assure qu’il ne s’agit pas d’une banale mise à jour. « Mais là on va essayer d’accélérer au maximum. » Résultat : Reverso a finalement réussi a se débarrasser, vendredi 1er mars, de quelques uns des exemples antisémites relevés par la Licra.
Laisser un commentaire