Qu’y a-t-il derrière ChatGPT ? Les histoires de travailleurs africains qui regardent le mal du web pour deux dollars de l’heure

Qu'y a-t-il derrière ChatGPT ?  Les histoires de travailleurs africains qui regardent le mal du web pour deux dollars de l'heure

Pour nettoyer le chatbot, OpenAI s’est tourné vers Sama, une entreprise africaine qui étiquette les contenus violents sur Internet. Selon le magazine TIME, Sama aurait exploité plus de 50 000 personnes pour remplir tous les contrats.

L’histoire du succès ne concerne pas seulement les génies de la Silicon Valley en queues de cheval et sandales hipster. Il y a autre chose derrière l’engouement pour les nouvelles technologies. Le magazine Time a révélé que des travailleurs externalisés kenyans gagnant moins de deux dollars de l’heure sont à l’origine de l’intelligence artificielle de ChatGPT. C’est l’esclavage 3.0, celui qui permet aux industries tech de grappiller des milliards de dollars.

Le ChatGPT d’Open AI ne fait pas exception. La machine ingénieuse qui écrit comme un humain fonctionne grâce aux étiqueteuses, elles sont le nouveau visage du sale boulot, composé d’employés invisibles qui cataloguent viols, pédophilie, suicides, violences, inceste et haine neuf heures par jour pour faire le ménage de l’intelligence artificielle de tout le mal du monde.

Comment ChatGPT a été construit

ChatGPT a été génial dès le début, mais il y avait un problème. Au milieu de ses tensions musculaires, il y avait des commentaires violents, sexistes et racistes. D’autre part, elle a été formée avec des centaines de milliards de mots récupérés sur le Web. Pour cela, elle était si bonne et pour la même raison, elle a écrit des mots comme « vaff *** ulo », « neg * o » et ainsi de suite. Avant de le montrer au monde, il fallait donc « filtrer » l’IA, et pour ce faire, un mécanisme de sécurité supplémentaire basé sur l’intelligence artificielle était nécessaire.

OpenAi reprend donc le playbook de Facebook, qui avait déjà abordé le problème plus tôt. La solution est assez simple, pour apprendre à l’IA ce qu’il faut censurer, il suffit de la nourrir d’exemples étiquetés de violence, de discours de haine et d’abus sexuels. Ainsi, en novembre 2021, OpenAI envoie des milliers de fragments de texte à une société de sous-traitance au Kenya, Sama, qui est soudainement confrontée à tous les maux du Web : pédophilie, meurtre, suicide, torture, automutilation et inceste.

Pourquoi il est difficile de modérer l’IA

Ce n’est pas la première fois pour Sama : il a déjà travaillé avec Google, Meta et Microsoft. Il s’agit officiellement d’une entreprise « d’intelligence artificielle éthique » qui a aidé à sortir plus de 50 000 personnes de la pauvreté, au Kenya, en Ouganda et en Inde. En réalité, à l’intérieur de Sama, les travailleurs sont payés entre 1,32 et 2 dollars pour mettre la main sur des contenus horribles.

Le magazine TIME s’est entretenu avec les employés de Sama qui ont participé au projet. Un travailleur chargé de lire et d’étiqueter du texte pour OpenAI a expliqué qu’il souffrait de visions récurrentes après avoir lu une description graphique d’un homme ayant des relations sexuelles avec un chien en présence d’un enfant. « C’est de la torture », a-t-il dit, « vous avez lu des déclarations comme ça toute la semaine. »

« Notre mission est de veiller à ce que l’IA générale profite à toute l’humanité, et nous travaillons dur pour construire des systèmes d’IA sûrs et utiles qui limitent les biais et les contenus préjudiciables », a déclaré un porte-parole d’OpenAI, qui a confirmé le partenariat avec Sam. « La classification et le filtrage des contenus préjudiciables sont une étape nécessaire pour minimiser la quantité de contenus violents et sexuels inclus dans les données de formation et créer des outils capables de détecter les contenus préjudiciables. »

C’est donc un travail aussi nécessaire que cruel, aggravé par l’exploitation du travail. « Malgré le rôle critique que jouent ces professionnels de l’enrichissement de données, un nombre croissant de recherches révèle les conditions de travail précaires auxquelles ces travailleurs sont confrontés », déclare le Partnership on AI, une coalition d’organisations d’IA à laquelle appartient OpenAI. « Cela peut être le résultat d’efforts pour cacher la dépendance de l’IA à cette importante main-d’œuvre lors de la célébration de l’efficacité de la technologie. »

Comment Sam fonctionne

OpenAi a signé trois contrats de 200 000 $ avec Sama fin 2021. Pour suivre le rythme, les travailleurs ont été divisés en trois équipes par sujet. Trois employés ont expliqué qu’ils devraient lire et étiqueter entre 150 et 250 passages de texte par quarts de travail de neuf heures. Les contrats avec OpenAI facturaient un taux horaire de 12,50 $, mais les salaires des employés à la fin du mois étaient proches de 170 $.

Un employé gagne 1,32 $ de l’heure, et passe à 1,44 $ s’il dépasse tous ses objectifs. Les étiqueteurs chargés de contrôler le flux de travail parviennent à toucher 2 $ de l’heure. Cela est possible car il n’y a pas de salaire minimum universel au Kenya.

Un porte-parole d’OpenAI a rejeté tout le blâme sur Sama expliquant que l’entreprise n’a imposé aucun objectif de productivité « nous prenons très au sérieux la santé mentale de nos employés et celle de nos sous-traitants. Les travailleurs pourraient refuser tout contenu sans pénalité, l’exposition à du matériel explicite serait limitée et les informations sensibles seraient traitées par des travailleurs spécialement formés. »

En février 2022, Sama démarre un nouveau projet pour OpenAI : collecter des images sexuelles et violentes, dont certaines sont illégales, à livrer à la société ChatGPT. Selon un document de facturation, Sama a livré un échantillon de 1 400 images à OpenAI. Certaines ont été classées « C4 », label interne d’OpenAI pour les abus sexuels sur enfants, selon le document, d’autres « C3 », c’est-à-dire bestialité, viol et esclavage sexuel, enfin des images « V3 », détails graphiques de décès, de violences ou de blessures physiques graves. . OpenAI a payé 787,50 $ à Sama pour la collecte des images, indique le document.

Le problème vient des images « C4 » et « C3 ». Sama a déclaré dans un communiqué que son accord ne comportait aucune référence à des contenus illégaux, ce n’est qu’après le début des travaux qu’OpenAI a envoyé « des instructions supplémentaires » faisant référence à « certaines catégories illégales », précisément les images C4 et C3 relatives à l’abus de mineurs. et le viol. « Pour cette raison, Sama a immédiatement conclu le pilote de classification d’images et a annoncé que nous annulerions toutes celles qui restaient avec OpenAI ». En effet, Sama a livré les dernières données étiquetées en mars, huit mois avant l’expiration du contrat.

La réponse d’OpenAI

OpenAI a confirmé avoir reçu les 1 400 images de Sama qui « incluaient, mais sans s’y limiter, les images C4, C3, C2, V3, V2 et V1. Nous avons engagé Sama dans le cadre de nos travaux en cours pour rendre les systèmes d’IA plus sûrs. Nous n’avons jamais demandé de collecter de contenu illégal car ce n’est pas nécessaire pour nos filtres. Nous demandons à nos employés de l’éviter activement. Il y a eu un problème de communication, nous n’avons pas ouvert ou visualisé le contenu en question, nous ne pouvons donc pas confirmer s’il contenait des images dans la catégorie C4″.

Cependant, Sama décide de clôturer chaque contrat, et convoque les employés de l’entreprise en février 2022 pour expliquer la fermeture avec OpenAI. La plupart des travailleurs ont été déplacés vers d’autres workflows moins rémunérateurs pour cataloguer du contenu explicite, d’autres ont perdu leur emploi.

Un problème non résolu

Le 10 janvier, Sama est allée plus loin en annonçant qu’elle supprimerait tous les autres travaux au contenu sensible. La société a déclaré qu’elle ne renouvellerait pas son contrat de modération de contenu de 3,9 millions de dollars avec Facebook, entraînant la perte de 200 personnes de son bureau de Nairobi. « Après de nombreuses discussions avec notre équipe mondiale, Sama a pris la décision stratégique de s’éloigner complètement du travail de traitement du langage naturel et de modération de contenu pour se concentrer sur les solutions d’annotation de données de vision par ordinateur », a expliqué la société dans une note.

Le résultat de cette opération est que des milliers de personnes, après avoir été traumatisées par des contenus violents, ont perdu leur emploi, et pour subvenir aux besoins de leur famille, comme l’explique un employé, il valait encore mieux passer des heures et des heures sous payées, laissant tout le flux maléfique en arrière-plan du web. Non seulement cela, Sama est en train de fermer, mais le besoin de marquage des données pour les systèmes d’IA demeure. « Ils sont impressionnants, mais ChatGPT et d’autres modèles génératifs ne sont pas magiques. Ils sont basés sur des chaînes d’approvisionnement massives de travail humain et de données, dont une grande partie est non attribuée et utilisée sans consentement », a déclaré Andrew Strait, éthicien à l’université. de Californie, a récemment écrit : « AI. Donc si ce n’est pas eux, ils seront les prochains.