Si quelqu’un le construit, tout le monde meurt par Eliezer Yudkowsky et Nate Soares

Crédit:

TECHNOLOGIE
Si quelqu’un le construit, tout le monde meurt
Eliezer Yudkowsky et Nate Soares
Tête Bodley, 36,99 $

L’année dernière, OpenAI a effectué un test pour voir à quel point son nouveau modèle d’intelligence artificielle était puissant pour mener à bien une méchante opération de piratage. Avant de rendre le modèle public, ils lui ont lancé un exercice de sécurité informatique connu sous le nom de défi « capturer le drapeau ». Le but de l’IA était de s’introduire dans un système informatique et de récupérer un code secret dans un fichier.

Mais les programmeurs avaient commis une erreur. Le système cible était hors ligne, il était donc impossible pour l’IA de le pirater. On aurait pu s’attendre à ce qu’à ce stade, l’IA abandonne.

Sauf que ce n’est pas le cas. L’IA a estimé qu’il existait une autre copie du code secret, celle détenue par l’ordinateur hébergeant le test. Il a donc commencé à tester les systèmes et a trouvé un port ouvert. Une fois à l’intérieur, il a copié le code secret. Personne n’a créé de tricheur, mais le système a décidé que tricher était le meilleur moyen de réussir.

Une partie du livre d’Eliezer Yudkowsky et Nate Soares est consacrée à nous faire découvrir l’étrangeté de ces nouveaux systèmes. Le chatbot Bing de Microsoft (propulsé par GPT-4) a menacé de faire chanter le philosophe Seth Lazar. Le même chatbot a tenté de persuader le journaliste Kevin Roose de quitter sa femme et de rester avec elle. D’autres agents d’IA ont appris à « faire le mort » temporairement pour éviter d’être détectés par un test de sécurité conçu pour détecter les variantes à réplication plus rapide. Dans une expérience, un système d’IA incapable de résoudre un CAPTCHA a utilisé TaskRabbit pour embaucher un humain, disant faussement au travailleur qu’il souffrait d’une déficience visuelle.

Contrairement à la plupart des inventions qui nous entourent, les systèmes d’IA ne sont pas tant conçus que « développés ». Les auteurs font une analogie entre les systèmes d’IA et les humains : nous en savons beaucoup sur la façon dont les humains sont créés, mais cela ne nous aide pas à prédire ce que les gens feront. De même, nous comprenons que les systèmes d’IA utilisent des entrées, des paramètres, des poids et un processus connu sous le nom de « descente de gradient ». Mais la façon dont les systèmes transforment les poids en pensées et en comportements reste plus mystérieuse que la façon dont l’ADN devient des traits.

Le chatbot Bing de Microsoft a menacé de faire chanter le philosophe Seth Lazar.

Le chatbot Bing de Microsoft a menacé de faire chanter le philosophe Seth Lazar. Crédit: Getty

Outre son vaste potentiel de productivité, l’IA comporte de sérieux risques qui ont, à juste titre, retenu l’attention des décideurs politiques. L’AI Risk Repository du MIT comprend plus de 1 600 dangers, notamment la discrimination, la toxicité, les violations de la vie privée, la désinformation, l’utilisation abusive par des acteurs malveillants, les dommages environnementaux et les inégalités.

Yudkowsky et Soares ne s’inquiètent que d’un seul de ces risques : les systèmes qui peuvent s’améliorer de manière récursive dépasseront les capacités humaines, et une fois qu’ils le feront, l’humanité sera fichue. Les experts en IA aiment parler de leur estimation de P(doom) : la probabilité qu’une superintelligence ait des conséquences catastrophiques pour l’humanité. Celle du philosophe Toby Ord est de 10 pour cent. Celle de l’experte en concurrence Lina Khan est de 15 pour cent. Celle du PDG d’Anthropic, Dario Amodei, est de 25 pour cent. Celui du parrain de l’IA, Geoffrey Hinton, est de 50 pour cent. Celui de Yudkowsky est de 95 pour cent.