Que signifie l’intelligence artificielle pour la confidentialité des données ?

Le battage médiatique technologique est une ressource inconstante. Il y a quelques années, blockchain et crypto étaient les mots magiques à la mode qui poussaient les investisseurs en capital-risque à se tourner vers les chéquiers. Aujourd’hui, avec un secteur valant 40 % de ce qu’il était à son apogée et des acteurs clés plongés dans un bourbier litigieux, son pouvoir de fascination a diminué et l’intelligence artificielle l’a fermement remplacé comme la saveur du mois.

Les sociétés de capital-risque cherchent tout simplement désespérément à remettre de l’argent aux développeurs d’IA. Mistral AI, qui se compose de trois ingénieurs français en IA et rien d'autre, a reçu 105 millions d'euros pour une valorisation de 240 millions d'euros lors du plus grand tour de table jamais réalisé en Europe, un mois seulement après sa constitution. Les politiciens sont tout aussi enthousiastes, plaçant leurs espoirs d’une croissance transformatrice de la productivité dans la technologie et faisant tout ce qui est en leur pouvoir pour garantir que leur juridiction accueillera des entreprises d’IA.

Le battage médiatique pourrait bien être justifié. Les capacités des derniers outils d’IA sont impressionnantes et il semble inévitable que leur prolifération et leur développement auront d’énormes conséquences économiques.

Mais alors que le secteur des cryptomonnaies est confronté à des défis réglementaires, l’IA commence à faire face à ses propres batailles juridiques sur plusieurs fronts. Alors que l’industrie de la cryptographie est aux prises avec les lois sur les valeurs mobilières et les restrictions anti-blanchiment d’argent, les fournisseurs d’IA sont confrontés à la colère des régulateurs et des activistes de la protection de la vie privée. L’un des régimes les plus problématiques pour le secteur de l’IA est le Règlement général sur la protection des données, le régime juridique qui protège la vie privée de tous les résidents de l’Union européenne et du Royaume-Uni.

Les pièges des données accessibles au public

Le développement d'un grand modèle de langage tel que ChatGPT nécessite la collecte de vastes corps de texte via un processus appelé web scraping. Ces ensembles de données ingèrent des détails extraits de sources en ligne ouvertes telles que les profils de réseaux sociaux. Les informations sont dans le domaine public, donc leur collecte ne peut pas être un problème, n'est-ce pas ? Faux. Les avocats spécialisés dans la protection de la vie privée s’efforcent de souligner que les développeurs d’IA qui s’adonnent au web scraping et à l’analyse restent aux prises.

Chris Elwell-Sutton est associé au sein de l'équipe données, confidentialité et cybersécurité du cabinet d'avocats britannique TLT. « Il existe une croyance commune selon laquelle, si les données sont extraites de sources accessibles au public, elles échappent au champ d'application du RGPD et des régimes de confidentialité similaires. C'est une erreur, potentiellement très coûteuse», explique-t-il. « Une fois que vos données personnelles sont stockées dans un système de fichiers, vous bénéficiez de la protection du RGPD, quelle que soit leur source d'origine. »

Le RGPD impose diverses obligations strictes à toute organisation stockant, transmettant ou exécutant des analyses sur des données personnelles. Le casse-tête le plus fondamental auquel les déployeurs de LLM seront confrontés à cause du RGPD est d'identifier une base juridique pour le grattage massif des données personnelles de millions de personnes à leur insu ou sans leur consentement. Cette question a fait l'objet d'un examen réglementaire et judiciaire approfondi dans toute l'Europe et aucune solution simple n'est en vue.

Il reste encore des inconnues sur les détails de l’application du RGPD à l’IA générative, mais les premiers coups de feu ont été tirés dans ce qui sera certainement une bataille longue et coûteuse. ChatGPT a été temporairement interdit par l'autorité italienne de protection des données en raison de résultats inexacts et de l'absence de motifs légaux de traitement, ainsi que d'une mauvaise gestion des données des enfants. Google a ensuite dû reporter le lancement de son concurrent Bard dans l'UE en raison de problèmes similaires en matière de confidentialité – même si le géant de la technologie a jugé bon de lancer le service au Royaume-Uni – un clin d'œil, peut-être, à l'approche commerciale positive en matière de respect de la vie privée promise par le Royaume-Uni. Gouvernement conservateur après le Brexit.

OpenAI a amélioré sa position en matière de confidentialité, en fournissant une vérification de l'âge, en permettant aux utilisateurs de refuser que leurs données soient utilisées pour les modes de formation et en prenant « des mesures pour supprimer les informations personnellement identifiables de l'ensemble de données de formation ». Mais il sera probablement difficile de prouver cette affirmation à la satisfaction d’un régulateur.

Les techniques exactes utilisées par OpenAI pour supprimer les données personnelles de son ensemble de données n'ont pas encore été divulguées en détail, mais elles ont mentionné « le filtrage et l'anonymisation des données ».