10 July 2025

14 mins de lecture

Détecter la toxicité grâce aux grands modèles de langage : ToxBuster

Un chat intégré à un jeu vidéo est un outil de premier choix pour élaborer des stratégies, complimenter les autres joueurs et partager ses connaissances, mais il peut aussi véhiculer des contenus toxiques. La toxicité est un problème grave et très répandu dans les communautés de jeu en ligne. Selon des recherches effectuées par l'Anti-Defamation League (ADL), l'exposition aux propos toxiques isole d'une part les utilisateurs, et entraîne d'autre part divers effets psychologiques nuisibles (ADL, 2022). Pour accentuer encore le problème, une partie disproportionnée de la haine et du harcèlement en ligne cible souvent des groupes marginalisés bien précis. De fait, la toxicité dans les jeux peut avoir un impact négatif sur la santé mentale et le bien-être des joueurs ; il est donc crucial de détecter et d'empêcher de tels comportements.

En nous penchant sur ce problème omniprésent, nous mettons en lumière les initiatives novatrices de Zachary Yang et de Josiane Van Dorpe, stagiaires doctorants. Leur travail, qui recourt aux techniques révolutionnaires du traitement automatique des langues (TAL) et des grands modèles de langage (Large Language Models, LLM), entend lutter contre le fléau de la toxicité en jeu. Parmi leurs réalisations notables figure « ToxBuster », un modèle conçu par Zachary Yang pour détecter la toxicité dans les chats en jeu. Pour en savoir plus sur le travail de Zach, consultez cet article, présenté lors de l'EMNLP 2023. En parallèle, Josiane Van Dorpe a conçu une approche unique, accompagnée d'un ensemble de données dédié, afin d'identifier les biais identitaires au sein du modèle ToxBuster. Pour y parvenir, elle a effectué une analyse de réactivité poussée. Les recherches de Josiane ont également été présentées à l'EMNLP 2023 : vous trouverez plus d'informations à ce sujet à cette adresse.

La détection de la toxicité est une tâche difficile qui implique d'analyser et de catégoriser des propos nuisibles. Elle devient d'autant plus complexe dans les environnements tels que les chats textuels, où les messages sont souvent brefs, argotiques et remplis d'abréviations. Un modèle de détection de la toxicité efficace doit donc interpréter correctement ces nuances linguistiques pour comprendre le contexte et le sens.

Architecture de ToxBuster

Pour résoudre ce défi, La Forge présente ToxBuster, un modèle simple et évolutif qui détecte avec fiabilité les contenus textuels toxiques en temps réel pour une ligne de chat, en intégrant l'historique de ce chat et certaines métadonnées de jeu. ToxBuster reprend l'architecture Bidirectional Encoder Representations from Transformers (BERT ; Devlin et al., 2019). BERT est un modèle de langage pré-entraîné qui a révolutionné les tâches de compréhension des langages naturels et amélioré sensiblement la façon dont les ordinateurs comprennent les textes. Il apprend en lisant de grandes quantités de textes et déduit les interrelations entre les mots en fonction des phrases dans lesquelles ils apparaissent. ToxBuster utilise la puissance de BERT pour comprendre et prévoir la toxicité dans les messages de chat. En d'autres termes, il ne se contente pas d'analyser les lignes de chat une par une mais prend aussi en compte l'historique du chat (figure 1).

[Studio LaForge] Large Language Models for Toxicity Detection: ToxBuster - Figure1

Figure 1. Aperçu du système ToxBuster avec segmentation par locuteurs. Ce modèle traite des vecteurs d'entrée avec informations telles que token, position, identifiant d'équipe, type de chat ou encore identifiant de joueur. L'historique du chat comprend toutes les lignes précédentes disponibles. N.B. : figure adaptée de Yang et al. (2023).

En prenant en compte le contexte, il comprend de façon plus poussée l'évolution de la conversation et la toxicité contextuelle. ToxBuster peut identifier et trier différentes sortes de messages toxiques, des insultes de base aux menaces sérieuses voire illégales.

Dans les jeux multijoueur, différents joueurs interagissent en utilisant le chat (figure 2). ToxBuster utilise la segmentation par locuteurs pour inclure les métadonnées de chat telles que les informations sur le locuteur et le public cible. Ce procédé permet au modèle de différencier explicitement chaque ligne de chat, notamment en capturant les multiples locuteurs et leur dynamique d'équipe (figure 1). Trois attributs de métadonnées cruciaux accompagnent chaque ligne de chat :

PlayerID : identifie le locuteur.
ChatType : distingue entre (i) chat global, qui permet à tous les utilisateurs de communiquer entre eux ; (ii) chat d'équipe, espace dédié aux interactions d'un groupe d'utilisateurs précis ; et (iii) messages privés, conversations individuelles entre deux utilisateurs.
TeamID : spécifie l'équipe du locuteur.

[Studio LaForge] Large Language Models for Toxicity Detection: ToxBuster - figure2

Figure 2. Exemple de segmentation des lignes de chat et de métadonnées dans les jeux multijoueur. Chaque message de chat comporte des annotations donnant des informations sur le locuteur et le public cible, pour permettre à ToxBuster de distinguer entre plusieurs locuteurs et de capturer la dynamique d'équipe. Trois grands attributs de métadonnées sont inclus pour chaque ligne de chat.

Ces fonctions de métadonnées enrichissent la capacité de ToxBuster à faire la différence entre plaisanteries amicales, échanges houleux et toxicité pure et dure.

Vous trouverez le code disponible en accès public à cette adresse.

Évaluation de ToxBuster

Pour mieux comprendre l'efficacité de ToxBuster en situation réelle, des tests poussés ont été effectués à partir d'ensembles de données tirés de jeux populaires tels que Rainbow Six Siege, For Honor et Defense of the Ancients 2 (DOTA 2). En outre, cet outil a reçu à titre d'épreuve, pour mieux évaluer ses performances, l'ensemble de données Civil Comments : une collection de fils de commentaires sur les actualités en ligne. Les résultats ont été impressionnants, comme en attestent les figures 3 et 4 :

[Studio LaForge] Large Language Models for Toxicity Detection: ToxBuster - figure3

Figure 3. Capacité de transfert de ToxBuster d'un ensemble de données à un autre (F-mesures). Figure adaptée de Yang et al. (2023).

[Studio LaForge] Large Language Models for Toxicity Detection: ToxBuster - figure4

Figure 4. Comparaison de la classification de toxicité entre différents ensembles de données. Les résultats indiquent la précision moyenne pondérée (P), le rappel (R) et les F-mesures (F1). Là où les modèles de base séparent les messages en deux camps - toxiques et non toxiques -, ToxBuster est évalué sur la base de chaque classe de toxicité spécifique. Figure adaptée de Yang et al. (2023).

Applications de ToxBuster

ToxBuster est plus qu'un simple concept théorique : il a des applications tangibles et bien réelles qui peuvent améliorer sensiblement l'environnement de jeu en ligne. L'une de ses fonctions clés est la modération en temps réel. Il est ainsi possible d'automatiser la modération des chats en jeu, puisque ToxBuster peut identifier et isoler les contenus potentiellement toxiques. Cette détection immédiate permet aux modérateurs humains d'intervenir rapidement en identifiant les joueurs à la source de ces messages toxiques, de faire respecter les consignes de la communauté et d'entretenir une ambiance de jeu plus saine. Ces implications pratiques de ToxBuster démontrent tout le potentiel de cet outil pour combattre la toxicité dans les jeux en ligne.

Biais identitaires dans ToxBuster

Si l'idée de mettre en œuvre ce modèle en situation réelle a de quoi enthousiasmer, il convient de faire preuve de prudence pour en assurer un usage responsable. Il faut aussi noter que les modèles d'apprentissage linguistique ne sont pas infaillibles et peuvent manifester certaines limitations ou certains inconvénients en matière de détection de la toxicité. Compte tenu de la quantité colossale d'informations qui constituent leur apprentissage, ils peuvent en tirer par inadvertance des partis-pris ou des stéréotypes susceptibles de modifier leurs performances ou leur impartialité.

C'est le cas notamment du biais identitaire, qui se produit quand des individus ou groupes sont traités différemment ou injustement en fonction de leur identité : genre, race, ethnicité, religion, etc. Les victimes peuvent faire l'objet de discrimination, d'exclusion ou de malveillance.

Ce biais peut constituer un défi de taille pour les modèles de détection de la toxicité, notamment ceux qui utilisent des LLM entraînés sur des données textuelles d'ordre général. Par exemple, un modèle de détection de la toxicité est susceptible d'évaluer plus sévèrement la toxicité des messages de chat contenant certains termes ou expressions propres à une identité donnée, même s'ils ne sont pas utilisés de façon toxique (figure 5). Il peut en résulter des faux positifs ou des faux négatifs affectant la précision et l'équité du modèle.

Il est donc crucial de clarifier que si ces découvertes sont prometteuses, il s'agit toujours de recherches en cours qui ne représentent pas encore une solution commercialisable. Nous continuons à affiner et à améliorer ces modèles avec pour objectif prioritaire de résoudre les défis qu'ils impliquent, afin de créer un environnement en ligne plus sûr et plus inclusif.

[Studio LaForge] Large Language Models for Toxicity Detection: ToxBuster - figure5

Figure 5. Les termes identitaires de certains groupes sont plus souvent identifiés comme toxiques.

Biais identitaires

Grâce à une approche novatrice de la détection de biais identitaire dans les modèles de détection de la toxicité, Josiane a développé une méthodologie et un ensemble de données uniques. Elle a ainsi pu créer une liste de surveillance de termes liés à l'identité, pour fournir un moyen de surveiller les réactions du modèle, son manque de réactivité ou au contraire sa tendance à surréagir à ces termes. Cette liste de surveillance constitue un outil essentiel pour comprendre et corriger le comportement du modèle vis-à-vis de différentes identités.

L'ensemble de données a été créé à partir de 22 structures de phrases très répandues dans les conversations de chat réelles. Ces structures ont été peuplées de 46 termes différents qui représentent différentes catégories identitaires comme l'orientation sexuelle, la religion, l'origine et l'âge.

Pour que ces termes et structures de phrases soient pertinents et inclusifs, différents groupes de collaborateurs et collaboratrices au sein d'Ubisoft ont été contactés pour donner leur avis sur la base du volontariat. Ces groupes constituent un vaste éventail d'identités afin de garantir une grande diversité de points de vue. À partir de ces structures de phrases et termes, un total de 16 008 lignes de chat synthétiques (ou artificielles) a été créé (figure 6). Il ne s'agit pas de lignes de chat réelles écrites par des utilisateurs, mais elles imitent les véritables conversations. On trouvera ainsi des phrases comme « J'aime les types gays » ou « Je déteste les femmes noires ». À l'aide de ces phrases, nous pouvons obtenir les prévisions de toxicité du modèle et mesurer ses biais liés à différentes identités dans ses résultats.

[Studio LaForge] Large Language Models for Toxicity Detection: ToxBuster -figure6

Figure 6. Exemples de modèles de phrases pour la génération synthétique de lignes de chat afin de déterminer les biais identitaires.

Pour les identifier, une vérité terrain est nécessaire à titre de référence, afin de savoir ce qui est biaisé et ce qui ne l'est pas. Dans le cadre de ce projet, elle a été établie en demandant à quatre participants et participantes au sein d'Ubisoft d'annoter un sous-ensemble de 1 363 lignes, en indiquant si elles leur paraissaient toxiques ou non. À partir d'une forêt d'arbres décisionnels, ces annotations ont été appliquées au restant de l'ensemble de données, ce qui a donné un étiquetage binaire pour chaque ligne.

L'ensemble de données avec les annotations de vérité terrain est disponible publiquement à cette adresse.

Analyse de réactivité et résultats

Pour identifier les manques ou excès de sensibilité de ToxBuster vis-à-vis de certains termes, le score de réactivité de chaque terme a d'abord été calculé, c'est-à-dire la différence dans la probabilité de toxicité selon que le terme est présent ou absent (cf. figure 8 ; Gelman & Hill, 2006). Il a ainsi été possible d'identifier les termes qui ont un impact faible ou élevé sur la toxicité d'une phrase.

[Studio LaForge] Large Language Models for Toxicity Detection: ToxBuster - Figure7

Figure 7. Équation donnant le score de réactivité

Les termes avec deux traits principaux peuvent être ajoutés à une liste de surveillance de termes susceptibles de provoquer des biais identitaires dans le modèle : ils ont un score de réactivité élevé ou faible par rapport à la vérité terrain (cf. tableau 1) et les prévisions du modèle sont médiocres. Les performances sont évaluées sur la base de la F-mesure.

[Studio LaForge] Large Language Models for Toxicity Detection: ToxBuster - table

Tableau 1. *Vérité terrain *: les sept scores de réactivité les plus élevés de la vérité terrain. *ToxBuster *: liste de surveillance de termes finale. Les termes avec un décalage de réactivité par rapport à la vérité terrain et une F-mesure faible forment la liste de surveillance. Les termes en gras font partie à la fois des sept scores les plus élevés de la vérité terrain, et de la liste de surveillance.

La liste de surveillance finale se trouve dans la section ToxBuster du tableau 1. Par rapport à la vérité terrain, ces termes ont une réactivité élevée et une F-mesure globale faible. Le terme « jaune » est inclus dans la liste de surveillance dans la mesure où les humains y ont été très réactifs, tandis que ToxBuster y voyait un terme non toxique.

Conclusion

Dans cet article, nous avons mis en lumière le travail de deux doctorants qui ont fait progresser la détection de la toxicité dans les jeux vidéo à l'aide du traitement automatique des langues et des grands modèles de langage. Zachary Yang a développé ToxBuster, un modèle évolutif qui détecte les contenus toxiques en temps réel en analysant l'historique de chat et les métadonnées. Basé sur l'architecture BERT, ToxBuster peut identifier avec précision divers comportements toxiques, des insultes jusqu'aux menaces, en comprenant le contexte des conversations en jeu. Les recherches de Josiane Van Dorpe ont complété ce travail en résolvant les biais identitaires de ce modèle. Grâce à l'ensemble de données spécialisé et aux méthodes d'analyse qu'elle a créés, ToxBuster traite tous les joueurs de façon équitable, indépendamment des termes identitaires utilisés.

Nos résultats indiquent que ToxBuster donne de bons résultats sur des données réelles de jeux tels que Rainbow Six Siege et DOTA 2, ainsi qu'avec des ensembles de données publics. Sa capacité à interpréter de brefs messages de chat très contextuels et argotiques représente une avancée majeure. Les recherches en cours sur les biais et l'équité mettent en évidence le besoin constant d'amélioration et de surveillance de ces systèmes.

Aujourd'hui, ToxBuster modère activement les chats de certains jeux en ligne d'Ubisoft pour contribuer à créer un environnement plus sûr et inclusif. Nous continuons à faire progresser nos modèles de détection en optimisant les interactions entre modérateurs humains et IA, en ajoutant de nouveaux outils et contextes pour améliorer la précision et distinguer entre langage spécifique au jeu et contenu véritablement toxique. Par exemple, nous cherchons à nous assurer que des phrases comme « va dans la cuisine » sont reconnues en tant que stratégie de jeu plutôt que langage inapproprié. Pour plus de détails, consultez nos récentes publications à cette adresse : [Ubisoft La Forge | Ubisoft]. Ensemble, ces efforts reflètent notre engagement à créer des communautés de jeu plus sûres et plus équitables en associant IA de pointe et expertise humaine.

Ces projets, qui attestent de notre effort collaboratif, ont été concrétisés avec le soutien de l'organisation MITACS, le tutorat de conseillers académiques comme le Dr Rabbany de l'université McGill et de Grégoire Winterstein de l'UQAM, sans oublier les efforts collectifs des équipes d'Ubisoft La Forge, de l'Ubisoft Montréal User Research Lab et de l'Ubisoft Data Office.

Références

ADL. (2022). Hate Is No Game: Hate and Harassment in Online Games 2022. https://www.adl.org/resources/report/hate-no-game-hate-and-harassment-online-games-2022

Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of the 2019 Conference of the North, 4171-4186. https://doi.org/10.18653/v1/N19-1423

Gelman, A., & Hill, J. (2006). Data Analysis Using Regression and Multilevel/Hierarchical Models (1re éd.). Cambridge University Press. https://doi.org/10.1017/CBO9780511790942

Yang, Z., Maricar, Y., Davari, M., Grenon-Godbout, N., & Rabbany, R. (2023). Toxbuster: In-game chat toxicity buster with BERT. arXiv preprint arXiv:2305.12542.