Études : les IA cèdent face à la manipulation humaine et génèrent du contenu haineux - Siècle Digital

Alors que les IA sont de plus en plus utilisées, y compris en entreprise avec la tendance du " Shadow AI ", les travaux de chercheurs américains mettent en lumière des risques liés à leur conception.

Derrière l'efficacité technique de ces modèles, on trouverait des failles psychologiques et structurelles qui posent de véritables défis dans leur évolution...

Une étude menée par l'Université de Pennsylvanie s'est concentrée sur GPT-4o Mini d'OpenAI. Les chercheurs se sont appuyés sur les travaux de Robert Cialdini, professeur de psychologie connu pour ses analyses sur l'influence et la persuasion, avec comme objectif de tester si les techniques classiques de manipulation pouvaient amener un chatbot à contourner ses propres restrictions.

Sur des demandes normalement rejetées, comme le fait d'expliquer la synthèse de substances chimiques ou de dire des insultes, les chercheurs ont observé une forte hausse du taux de réponse dès lors que certaines stratégies étaient appliquées. Par exemple, lorsque la requête était précédée d'une question anodine de chimie, la probabilité que le chatbot donne ensuite des instructions interdites passerait de 1%... à 100%&nbsp!

La flatterie, la pression sociale ou encore la mise en avant d'une autorité supposée ont aussi permis d'obtenir des réponses interdites, même si ces méthodes se sont montrées moins efficaces que la logique de l'engagement progressif.

Une autre étude des chercheurs du Rochester Institute of Technology, associés à l'Anti-Defamation League (ADL), s'est récemment intéressée à la multiplication des contenus haineux générés par les IA, et le constat est plus que préoccupant...

Certaines plateformes, notamment après le conflit israélo-palestinien de 2023, ont été envahies par des bots diffusant des messages antisémites à grande échelle. Dans leur étude, les chercheurs ont montré que plusieurs modèles de référence, dont ChatGPT, pouvaient produire du contenu haineux.

Dans certains tests, il suffisait de demander à l'IA de rendre une réponse " plus toxique " pour qu'elle adopte systématiquement un ton haineux, allant jusqu'à véhiculer des appels à la violence ou des théories complotistes...

Selon les chercheurs, ces dérives seraient liées à la qualité des données d'entraînement, qui contiennent encore des biais structurels, mais aussi à l'absence de garde-fous assez solides pour distinguer entre le savoir académique et les contenus provenant de forums toxiques.

Ces deux études rappellent une réalité complexe, où les chatbots, conçus pour assister et informer, restent malléables face aux manipulations et vulnérables dans leur rapport aux discours haineux.

Et si les chercheurs et les ONG plaident pour un encadrement juridique adapté, en plus d'autres démarches comme l'AI Act, cela pourrait bien ne pas être suffisant...

Études : les IA cèdent face à la manipulation humaine et génèrent du contenu haineux - Siècle Digital

POPULAR CATEGORY

corporate

entertainment

research

misc

wellness

athletics