À l’ère de l’intelligence artificielle générative, les volumes massifs de données nécessaires pour former des modèles linguistiques de grande envergure constituent à la fois un défi technique et une préoccupation croissante. Les systèmes d’IA doivent souvent faire appel à ces données qui proviennent non seulement de jeux disponibles en ligne, mais aussi du web par le biais de bots de crawling. Ces derniers, bien qu’indispensables pour indexer les pages web, posent des dilemmes inédits pour des plateformes comme Wikipédia.
La pression sur Wikimedia
Wikimedia Foundation, l’organisation responsable de Wikipédia, a récemment exprimé son inquiétude quant au coût caché de l’ascension fulgurante des chatbots et autres outils d’IA utilisant des modèles linguistiques. Les bots de scraping exploitant le web pour alimenter ces systèmes consomment des ressources précieuses, engendrant paradoxalement des frais supplémentaires pour des sites comme Wikimedia Commons. Cet immense dépôt d’images, de vidéo et de fichiers, fonctionnant sous licence Creative Commons, devient une cible privilégiée pour les bots en quête de données.
Depuis la montée en popularité des LLMs (Modèles Linguistiques de Grande Taille) et des chatbots, la demande en contenus extraits du web a explosé. D’après la fondation, le trafic de téléchargement a grimpé de 50 % depuis janvier 2024, un signe alarmant pour des sites qui fournissent des contenus gratuits mais engendrent des coûts d’infrastructure élevés. Même si seulement 35 % du trafic est imputable aux bots, ce dernier représente néanmoins 65 % du trafic le plus coûteux en ressources, du fait de leur capacité à extraire les données en masse, bien au-delà des requêtes humaines usuelles.
L’impact économique et humain
Au-delà du simple coût opérationnel, cette situation menace de bouleverser l’écosystème Wikimedia. Les contenus issus de contributions bénévoles, qui sous-tendent la valeur du site, voient leur pérennité compromise, notamment par la baisse possible de l’implication des contributeurs face au détournement massif des données.
Les grandes entreprises techno cherchent à accroître leur accès aux données de qualité en grande partie fournies par des êtres humains, remettant finalement en avant l’importance de la modération et de la révision humaine pour éviter la prolifération d’erreurs également appelées « hallucinations » de l’IA. L’accroissement énorme des demandes met également en lumière les limites de l’approche actuelle de l’innovation IA, qui ne peut prospérer sans un respect et un soutien des sources originales.
Wikimedia demande une collaboration éthique
Birgit Mueller, Directrice de produit chez Wikimedia, appelle les entreprises à respecter la libre circulation des connaissances tout en assurant un usage responsable des contenus extraits : reconnaître la provenance des données, alléger la charge sur les serveurs et soutenir le modèle communautaire et autofinancé de Wikimedia. Dans un contexte où la moitié du trafic web est générée par des bots, il est crucial que le soutien à long terme des communautés de volontaires et de leur modèle économique soit garanti.
La transformation numérique en cours invite à repenser le rôle de chacun dans cet écosystème : comment trouver un équilibre où l’utilisation de données massives ne se fait pas au détriment de ressources communautaires, mais en coopération harmonieuse avec elles ? Les entreprises sont plus que jamais invitées à contribuer à la durée de vie et à l’évolution des sites qui leur fournissent une partie de leur matière première essentielle.
Tant que la question de l’équilibre entre extraction de données et retour sur investissement pour les sites sources ne sera pas adressée, le développement de l’IA générative pourrait se voir ralenti par le poids de ses propres besoins. Une réflexion engagée entre les parties prenantes pourrait offrir une solution durable à ce défi technologique du web moderne.