Chen a déclaré que les directives de modération de contenu de Facebook, Twitter et d’autres avaient réussi à filtrer certaines des désinformations les plus évidentes en anglais. Cependant, le système manque souvent un tel contenu lorsqu’il est dans d’autres langues. Ce travail devait plutôt être effectué par des bénévoles comme son équipe qui recherchaient la désinformation et étaient formés pour la désamorcer et minimiser sa propagation. «Ces mécanismes, qui sont censés capturer certains mots et certaines choses, ne capturent pas nécessairement cette désinformation et cette désinformation lorsqu’ils sont écrits dans une autre langue», dit-elle.

Les services et technologies de traduction de Google, tels que Translatotron et Écouteurs de traduction en temps réel Utilisez l’intelligence artificielle pour convertir entre les langues. Pour Xiong, cependant, ces outils sont insuffisants pour Hmong, un langage extrêmement complexe dans lequel le contexte est extrêmement important. «Je pense que nous sommes très complaisants et dépendants de systèmes avancés comme Google», dit-elle. « Ils prétendent être » linguistiquement accessibles « et puis je l’ai lu et il dit quelque chose de complètement différent. »

(Un porte-parole de Google a admis que les petites langues « sont une tâche de traduction plus difficile », mais a déclaré que la société avait « investi dans des recherches qui profitent particulièrement aux traductions de langues pauvres en ressources » en utilisant l’apprentissage automatique et les commentaires de la communauté.)

Jusqu’au bout

Les défis du langage en ligne s’étendent au-delà des États-Unis – et littéralement au code sous-jacent. Yudhanjaya Wijeratne est chercheur et data scientist au sein du think tank sri-lankais LIRNEasia. En 2018, il a commencé à traquer les réseaux de robots dont les activités sur les réseaux sociaux faisaient la promotion de la violence contre les musulmans: en février et mars de cette année-là, une série d’émeutes de bouddhistes cinghalais contre des musulmans et des mosquées dans les villes d’Ampara et de Kandy ont été dirigées. Son équipe documenté La «logique de chasse» des robots a catalogué des centaines de milliers de publications sur les réseaux sociaux cingalais et a porté les résultats sur Twitter et Facebook. «Ils disaient toutes sortes de choses gentilles et bien intentionnées – des déclarations can, en gros», dit-il. (Dans un communiqué, Twitter dit qu’il utilise un contrôle humain et des systèmes automatisés pour « appliquer nos règles de manière impartiale à toute personne en service, quels que soient ses antécédents, son idéologie ou sa place dans l’échiquier politique. »)

En contactant le MIT Technology Review, un porte-parole de Facebook a déclaré que la société avait commandé une évaluation indépendante des droits de l’homme du rôle de la plateforme dans la violence au Sri Lanka. qui a été publié en mai 2020et apporté des changements à la suite des attaques, notamment en embauchant des dizaines de modérateurs cinghalais et tamouls. «Nous avons utilisé une technologie proactive de détection des discours de haine en cinghalais pour nous aider à identifier plus rapidement et plus efficacement les contenus potentiellement dangereux», ont-ils déclaré.

« Ce que je peux faire en anglais avec trois lignes de code en Python m’a littéralement pris deux ans pour regarder 28 millions de mots cinghalais. »

Yudhanjaya Wijeratne, LIRNEasia

Lorsque le comportement du bot a continué, Wijeratne est devenu sceptique quant aux platitudes. Il a décidé d’examiner les bibliothèques de codes et les outils logiciels que les entreprises utilisaient et a constaté que les mécanismes de surveillance des discours de haine dans la plupart des langues autres que l’anglais n’étaient pas encore en place.

«Une grande partie de la recherche pour de nombreuses langues comme la nôtre n’a tout simplement pas été faite», déclare Wijeratne. «Ce que je peux faire avec trois lignes de code en Python en anglais m’a pris littéralement deux ans pour examiner 28 millions de mots cinghalais pour créer les corpus de base, créer les outils de base, puis faire monter les choses au niveau où j’étais éventuellement faire ce niveau d’analyse de texte. « 

Après que des kamikazes aient attaqué des églises à Colombo, la capitale du Sri Lanka, en avril 2019, Wijeratne a construit un outil pour analyser les discours de haine et la désinformation en cinghalais et en tamoul. Le système s’appelle chien de gardeest une application mobile gratuite qui recueille des nouvelles et attache des avertissements aux fausses histoires. Les avertissements proviennent de volontaires formés à la vérification des faits.

Wijeratne souligne que ce travail va bien au-delà de la traduction.

«De nombreux algorithmes que nous tenons pour acquis et qui sont fréquemment cités dans la recherche, en particulier dans le traitement du langage naturel, donnent d’excellents résultats pour l’anglais», dit-il. « Et pourtant, de nombreux algorithmes identiques qui sont même utilisés pour des langues distantes de quelques degrés seulement – qu’elles soient allemandes de l’ouest ou issues de l’arbre des langues romanes – peuvent produire des résultats complètement différents. »

Le traitement en langage naturel est la base des systèmes automatisés de modération de contenu. Wijeratne publié un article en 2019, qui a exploré les écarts entre sa précision dans différentes langues. Il soutient que plus il y a de ressources informatiques pour un langage tel que des ensembles de données et des pages Web, mieux les algorithmes peuvent fonctionner. Les langues des pays ou des communautés les plus pauvres sont désavantagées.

«Par exemple, si vous construisez l’Empire State Building pour l’anglais, vous avez les plans. Vous avez le matériel », dit-il. «Vous avez tout sous la main et il vous suffit de mettre tout ça ensemble. Vous n’avez pas de plans pour une autre langue.

«Vous n’avez aucune idée d’où viendra le béton. Vous n’avez pas d’acier et vous n’avez pas de travailleurs. Alors vous resterez assis là et frapperez pierre après pierre, en espérant que votre petit-fils ou petite-fille achèvera peut-être le projet. « 

Problèmes profonds

Le mouvement pour rendre ces plans disponibles est connu sous le nom de justice linguistique et n’est pas nouveau. L’American Bar Association décrit la justice linguistique comme un «cadre» qui préserve le droit des gens à «communiquer, comprendre et être compris dans la langue qu’ils préfèrent et se sentent le plus articulée et la plus puissante».



Source link

Recent Posts