Alors que l'Authors Guild, collectif d'auteurs américains, se battait depuis plusieurs mois pour en connaître le contenu, OpenAI a annoncé avoir détruit les bases de données qui avaient servi à l'entrainement de ChatGPT-3. Nommées « books 1 » et « books 2 », elles contenaient probablement plus de 100.000 livres et 50 milliards de mots, protégés par le copyright, qui ont permis à l'outil d'IA générative d'apprendre à comprendre et à parler le langage humain.
Au passage, pour ceux qui l’auraient raté, très bon AMA sur le sujet des LLM / IA: https://jlai.lu/post/6554057