IA

ChatGPT, Mistral AI, Claude : d’où viennent les données de l’IA générative de contenus ?

Les ChatGPT (OpenAI), Mistral AI ou autres Claude (Anthropic) fournissent-ils des données fiables, véridiques et légales ? Quelles sont leurs sources ? La transparence n’est pas toujours au rendez-vous. La fondation Mozilla le déplore, ainsi que l’autorité européenne de régulation des données personnelles.

(c) Adobe stock
(c) Adobe stock

Les données utilisées et reformulées par les plateformes IA génératrices de contenus posent questions sur leur fraîcheur (de quand datent-elles ?), leur véracité et leur respect de la vie privée. La fondation Mozilla (univers des développeurs du logiciel libre ou ‘open source’) avait interpellé OpenAI en mars dernier sur son absence de transparence à propos des données utilisées dans ChatGPT : « Ces modèles d’IA générative s’appuient sur de gigantesques ensembles de données collectées sur le Web qui contiennent des contenus néfastes. Ces données doivent donc être filtrées avec une extrême vigilance, avant de pouvoir être utilisées pour entraîner des modèles ».

Mozilla s’en prend d’abord à Common Crawl, une plateforme qui publie des archives mensuelles à partir de milliards de pages web souvent mal filtrées (propos racistes, sexuels, etc.), avant de viser OpenAI : « Nous ne savons toujours pas comment OpenAI entraîne ses modèles d’IA, quelles données ils utilisent, comment elles sont collectées, filtrées ou non dans leurs outils d’IA», dénonce la fondation qui cite Sam Altman, p-dg de la firme : « Je pense que vous pouvez faire des choses dans le monde… Vous n’avez pas besoin d’attendre, vous n’avez pas besoin d’obtenir la permission. »

Sauf que le New York Times a intenté un procès à OpenAI pour utilisation de données personnelles et de contenus protégés par le droit d'auteur…L’éditeur de ChatGPT n’est pas le seul visé : « Google et Microsoft ont accès à d’importantes quantités de données personnelles de leurs utilisateurs, comme des conversations privées, des documents financiers ou encore des photos et des vidéos de famille », ajoute Mozilla, qui constate que les géants de la tech refusent la transparence, en invoquant le « contexte concurrentiel ».

Véracité, hélas relative

Un avertissement a également été lancé par le Comité européen de la protection des données (EDPB), dont fait partie la Cnil pour la France : « Les efforts fournis jusqu'ici par OpenAI ne sont pas suffisants pour assurer le respect du règlement européen sur les données personnelles (RGPD). (…) Leur principe même est d'extraire des données issues de sites Internet pour former et enrichir leurs modèles. Or, parmi ces données, il y a inévitablement des données à caractère personnel ».

Maartje de Graaf, avocate spécialisée dans la protection des données (Noyb), alerte : « Inventer de fausses informations est déjà problématique en soi. Mais lorsqu'il s'agit de fausses informations sur des personnes, les conséquences peuvent être graves ». ChatGPT 4 le dit lui-même : « La qualité et la véracité des informations dépendent des sources d’où elles proviennent. Les modèles GPT-4 tentent de filtrer les informations inexactes, mais ils ne sont pas infaillibles. »

Il existe effectivement des méthodes de filtrage (scores de perplexité , ‘n-grams’, etc.) : pas toujours efficaces. Ainsi la plateforme IA générative Anthropic avec ses modèles Claude 2 (130 milliards de paramètres) et Claude 3 qui arrivent en France, soutient que ses données sont essentiellement issues de la communauté ‘open source’ (extraits d’ouvrages, articles de recherche) et que sa plateforme utilise des mécanismes capables de réduire les biais, écarter les réponses nuisibles et filtrer les données privées. A voir.

Hallucinations, toujours

S’agissant de ChatGPT, personne ne peut garantir qu’il fournisse toujours des informations correctes. Rappelons qu’il peut « halluciner », c’est à dire inventer des réponses, calculer des déductions erronées à partir de données non valides. D’où ces formules qu’il est fortement conseillé d’insérer dans les ‘prompts’ (requêtes) : n’invente pas, donne tes sources, cherche dans tels ou tels médias...

ChatGPT 4 écrit que ses données proviennent de « diverses sources disponibles sur Internet jusqu’en septembre 2021. Cela inclut des livres, un large éventail de sites web et d’articles couvrant divers sujets, des encyclopédies en ligne, articles de recherche, des extraits de livres numérisés et de publications académiques disponibles en ligne, des bases de données publiques, des forums, des blogs, articles de presse et d’autres contenus textuels. (…) Toute information, événement ou développement survenu après septembre 2021 n’est pas inclus dans le modèle ». Ce n’est plus vrai.

Pressé de fournir des précisions, le générateur de contenu ajoute : « Les données spécifiques et détaillées telles que le nombre exact de sites web ou d’articles utilisés ne sont pas publiées par OpenAI pour des raisons de confidentialité et de propriété intellectuelle (…). Mais il est largement reconnu que les données utilisées se comptent en centaines de milliards de mots ». GPT-3 aurait été « formé sur environ 570 giga-octets de textes filtrés après un prétraitement à partir de sources publiques et de licences ». En 2020, l’université américaine Cornell écrivait que le modèle GPT-3 comptait 175 milliards de « paramètres ». Lors de la sortie de ChatGPT-4, à la fin 2023, les experts ont mentionné 170 trillions (milliers de milliards, aux Etats-Unis) de « paramètres ». On n’en sait pas plus.

Comparativement, alors que la version 7B du français MistralAI (sept. 2023) comptait 7 milliards de paramètres issus d’Internet sous licence Apache 2.0, la version 8x22b vient de dépasser les 176 milliards. Cet éditeur a introduit une licence « non-production » destinée à la recherche et fermée aux usages commerciaux. Son assistant conversationnel « Le Chat » reste gratuit.

Grand flou sur les droits d’auteur

A propos des droits d’auteur, OpenAI invoque « des lois complexes qui varient selon les juridictions ». Aux États-Unis, par exemple, « l’utilisation équitable permet certains usages limités de contenus protégés par des droits d’auteur sans autorisation préalable (…) . Cependant, ajoute la firme contrôlée par Microsoft, il y a un risque que des litiges surgissent ». Résultat : comme Google, OpenAI a signé des accords avec de grands médias pour utiliser leurs contenus. Citons notamment celui de 250 M$ signé avec News Corp (The Wall Street Journal, New York Post) ou avec Le Monde (60 M€ avec Google, 6 ou 7 M€/an avec OpenAI), avec Prisa Media en Espagne (El Pais), avec l’agence mondiale Associated Press, le Financial Times, le groupe allemand Axel Springer…Microsoft, plus discrètement, a signé de tels accords (dont un avec News Corp.). L’agence Reuters s’est également rapprochée des entreprises d’IA, sans les mentionner. Même discrétion à l’AFP (qui a signé avec Google, Facebook et Microsoft).

Pierre MANGIN