ChatGPT : le grand remplacement – ou pas
24 jan. 2023 - 09:15,
Tribune
- Cédric CartauOn va commencer par la base : ChatGPT n’est pas de l’IA, tout du moins dans la v3, et en tout cas selon ma définition de l’IA, qui est la suivante : est IA ce qui est « réentrant », c’est-à-dire ce que l’on peut brancher sur le programme lui-même pour qu’il auto-apprenne sans intervention extérieure. Par exemple, si vous injectez le corpus des règles du jeu d’échecs à un programme auto-apprenant et le faites jouer contre lui-même, au bout d’un temps (certainement très long) il finira par mettre une pilée à Kasparov. A contrario, certes on a dû injecter la grammaire du langage à ChatGPT, mais, sans alimentation régulière par des sources externes (les discussions, les chats, Wikipédia, etc.), il restera aussi con qu’un balai en promo chez GiFi. Et impossible de le faire discuter avec lui-même pour améliorer son expérience, impossible qu’il se rende compte de lui-même que l’on contourne ses protections pour lui faire dire des horreurs (voir plus bas), bref impossible qu’il apprenne sans qu’une petite armée de petites mains vienne lui montrer tous les trucs et astuces du langage.
Ensuite, et c’est très bien expliqué dans une vidéo[1] de Monsieur Phi, la version actuelle de ChatGPT (qui est certainement bridée) n’est jamais qu’une énorme base de probabilités, qui sait « juste » prédire le prochain mot d’une phrase, et rien de plus. Rien là qu’on puisse appeler « discuter », ni même « répondre à des questions », et d’ailleurs le chat est très facilement piégé dans la vidéo où il est amené à confirmer que le thon est un mammifère. Pour en arriver là, il aura fallu non seulement alimenter le bestiau avec une base énorme, mais en plus lui injecter un algorithme supposé utiliser 175 millions de paramètres, et surtout faire intervenir une phase humaine d’entraînement afin de hiérarchiser ces probabilités dans les réponses pour ne pas se retrouver avec un bot raciste, misogyne, fan d’armes de poing et alcoolique. Un des tests mené par Monsieur Phi consiste à tenter de faire tenir au bot des propos climatosceptiques : les concepteurs ont mis des garde-fous, mais qui sont très simples à contourner : vous conviendrez qu’on est loin de l’IA à ce stade.
Le concepteur, qui est en train de finaliser la v4, prévient[2] d’ailleurs que cette version sera loin, très loin de pouvoir être qualifiée d’IA : tout au plus pourra-t-elle produire des textes plus précis, fournir des réponses plus fiables, etc. Il est d’ailleurs étonnant de voir tous les péquins qui se précipitent pour qualifier d’IA le moindre logiciel capable de corréler le stock de PQ avec une épidémie de tourista : je leur conseille de revenir aux bases des maths et de se former sur les concepts connus depuis Aristote, à savoir la corrélation, la causalité, l’induction, la déduction, etc.
D’autres vidéos en revanche testent les possibilités de l’engin sur des problèmes plus ciblés. L’écriture de code est un grand classique, par exemple des macros Excel ou des scripts Bash pour les environnements Unix. Sans surprise, de la même façon que pour les exposés d’histoire derrière lesquels il est fortement conseillé de repasser afin d’éviter quelques bourdes monumentales, le code qui est produit est clairement buggé, mais le bot aura pondu un squelette exploitable, une grande partie du travail a donc été déjà faite.
Il reste nombre de problèmes à régler, notamment la question de l’entraînement du bot (il faut réinjecter des masses énormes de données mises à jour au préalable avant de diffuser la version), la question de la phase humaine de l’entraînement (qui est incompressible étant donné la technologie retenue et qui va limiter certains aspects de la phase d’industrialisation), la question des droits d’auteur (pour pouvoir taper dans les bases servant à constituer le corpus d’entraînement), la question des droits d’auteur de ce qui est produit (sujet étonnamment mis sous silence pour le moment, faites confiance à Micromou pour se trouver du bon côté du manche), la question de la validité des sources, etc.
La capitalisation d’OpenAI est d’environ 30 milliards de dollars, soit plus que Carrefour, dont le bénéfice net pour 2024 est estimé à 1 milliard d’euros. L’écosystème IT semble donc fonder de grands espoirs dans la technologie, à tel point qu’une série de réunions au sommet a eu lieu chez Google (qui a déclenché une alerte managériale au plus haut niveau et prévoit de lancer Sparrow, le concurrent de ChatGPT, en 2023) afin de ne pas se laisser distancer sur ce qui pourrait ficher en l’air son cœur de business. Les observateurs de la sphère économique notent sans une pointe d’humour que ChatGPT est une forme de revanche de Microsoft (qui a des billes dans l’histoire) sur Google – qui lui avait damé le pion avec le Cloud, Android et tout le reste.
Anticiper dès à présent les changements induits par ce type de logiciel est à ce stade difficile. On peut tout de même noter un certain nombre de tendances qui semblent inéluctables, notamment :
– un changement majeur de paradigme dans la production de « cochonnerieswares »[3] ; clairement, c’est le sujet qui effraie le plus aujourd’hui (des experts en sécurité ont créé un logiciel malveillant polymorphe « hautement évasif » à l’aide de ChatGPT, selon un article paru il y a quelques jours sur le site developpez.com) ; cette inquiétude est générale[4] ;
– curieusement, et c’est un sujet qui n’apparaît presque pas dans les discussions ni dans la presse, bon courage aux éditeurs de contenu au sens large pour traquer les fake, les faux comptes, les trolls et j’en passe ; la prochaine élection présidentielle dans un pays « libre » va être rock’n’roll ;
– l’usage des requêtes : qui les fait ? Pourquoi ? Avec quelle IP ?, etc. Ça va être drôle quand les PDG de Google et de Facebook vont se rendre compte que le machin leur siphonne leurs clients en plus de mettre le bazar dans leurs data (voir le point précédent) ;
– la capacité à simuler le fait que les employés travaillent : on trouve déjà sur le Net des exemples de réponses automatiques aux mails professionnels ; bon, OK, c’est creux, mais quand on voit que certains sont capables d’écrire des trucs comme « Evénementialiser un rebilling all-in-one », « Tableau de bord des risques norme BT14-01 » ou « Senior technology squad leader », pas certain que la hiérarchie s’aperçoive qu’un tiers des employés ont branché leur messagerie sur GPT3 avant d’aller jouer au babyfoot en bas de la rue ;
– la fin des services marketing, qui pourront être tenus par deux stagiaires et une machine à café au fond du couloir ;
– l’impact RGPD ; les DPO de santé (voir le très complet article[5] de Ticsanté sur l’association des DPO en santé) feraient bien de garder un œil attentif sur la techno.
Bon, en même temps, que les développeurs et les marketeux se rassurent : certes, ChatGPT va pondre des bouts de code très rapidement (qu’il leur faudra tout de même relire et corriger), et ce quatre fois plus vite qu’ils ne le faisaient auparavant, mais ce sera comme pour la virtualisation des serveurs : provisionner une VM par rapport à un serveur physique va quatre fois plus vite, de sorte qu’au final on en demande quatre fois plus à l’adminsys… et que le couillon de l’histoire se trouve être celui qui était persuadé qu’il lui faudrait quatre fois moins d’informaticiens, alors qu’il se retrouve à devoir raquer un logiciel de plus. Et il y a toujours des crétins qui sont persuadés qu’avec la techno on va avoir besoin de DSI plus petites !
Elle n’est pas belle la vie ?
Réponse de ChatGPT : La vie peut être belle, mais elle peut aussi comporter des difficultés et des épreuves. Cela dépend de la perspective de chacun et de sa propre expérience.
Punaise, ça arrache !
[1] https://www.youtube.com/watch?v=R2fjRbc9Sa0&list=WL&index=11&t=1855s
[2] https://www.bfmtv.com/tech/chat-gpt-a-quoi-ressemblera-la-prochaine-version_AV-202301180347.htmlc
[3] https://www.infosecurity-magazine.com/news/chatgpt-creates-polymorphic-malware/
[5] https://www.ticsante.com/story?ID=6542
L'auteur
Responsable Sécurité des systèmes d’information et correspondant Informatique et Libertés au CHU de Nantes, Cédric Cartau est également chargé de cours à l’École des hautes études en santé publique (EHESP). On lui doit aussi plusieurs ouvrages spécialisés publiés par les Presses de l’EHESP, dont La Sécurité du système d’information des établissements de santé.