La très large diffusion de ChatGPT 3, et en parallèle de modèles génératifs graphiques comme Midjourney, puis de toutes sortes de concurrents et nouvelles versions, donnant au grand public l’impression qu’une révolution technologique soudaine a eu lieu en la matière, et les entreprises du secteur ne cessant d’annoncer des avancées nouvelles (si parfois quelque peu inquiétantes) la presse généraliste multiplie ces deux dernières années les articles sur l’avenir de l’Intelligence Artificielle (largement confondue avec sa seule branche générative, faisant oublier l’importance qu’avaient déjà prises d’autres formes d’IAs dans nos vies).
Ils emploient souvent au petit bonheur la chance un certain nombre de termes, les faisant largement sortir de leur définition en les assimilant les uns aux autres. Comme je ne puis que les employer aussi en parlant d’IAs, je me suis dit que quelques clarifications s’imposaient.
L’Intelligence Artificielle
L’intelligence artificielle tout d’abord est un concept connu sous cet appellation depuis les années 1950 (très exactement employé pour la première fois en 1956 par le chercheur américain John McCarthy, nous apprend Wikipedia).
Il s’agit, pour faire le plus court possible, d’un type de machines ou programmes qui serait capable de « raisonner » ou en tout cas de « déduire » quelles actions sont à effectuer ou quelles réponses sont à générer en fonction des informations qui lui sont fournies.
Une chose intéressante à noter c’est qu’à ce stade on ne parle pas encore d’apprentissage (ou en tout cas pas d’apprentissage basé sur l’imitation et en particulier pas généraliste), le machine learning qu’on relie souvent à la définition des I.As actuellement, ne s’imposera que bien plus tard comme manière privilégiée de développer cette capacité de déduction.
La recherche en IA s’oriente d’ailleurs plutôt, au départ, vers le développement de systèmes experts, dédiés à des tâches particulières et cherchant à reproduire le comportement idéal d’un spécialiste humain confronté à celles ci en employant des règles fixes (dans tel cas employer telle procédure pour établir une succession d’étapes appropriée, prendre en compte en priorité telles informations, etc.) plutôt que s’enrichissant d’une expérience acquise par la machine.
Ce qu’on relierait plutôt à la notion d’algorithmes spécialisés que d’IA de nos jours mais n’en satisfait pas moins leur définition d’origine, des machines capables de déduire quel comportement adopter à partir d’une situation, que la machine évalue à partir d’assertions logiques (si A est vrai B est faux par exemple), de probabilités d’avance quantifiées (si A est vrai cela augmente de tant la probabilité de C d’être vrai, et si après tout calculs C m’apparaît avoir plus de chances d’être vrai que D & E je considérerai que C est vrai, etc.) ou de simulations basées sur celles ci (si A est vrai je vais vérifier si C est vrai en simulant la situation en découlant et voyant si elle est cohérente avec les autres données dont je dispose, par exemple sera-t’elle compatible avec l’assertion E est vrai que j’ai déjà constatée).
Cette approche n’en a pas moins été à l’origine que les modèles basés sur l’apprentissage d’une véritable révolution, en offrant par exemple à des systèmes informatiques la capacité de piloter des machines-outils en sachant réagir à toute situation prévisible, ou de battre même les plus grands championsSi les actuels s’enrichissent en plus au fil de leur expérience, le modèle Deep Blue dans sa première version à avoir battu un champion du monde d’échecs était strictement un système expert, uniquement basé sur une bibliothèque fixe d’ouvertures et des simulations. dans la plupart des jeux de stratégie classiques (le jeu étant particulièrement adapté au développement de systèmes experts, du fait qu’il a par définition des règles et un cadre limité rendant tout ce qui peut y arriver prévisible).
Machine learning et deep learning (l’apprentissage machine et profond en vf)
L’apprentissage machine, si c’est un domaine d’étude presque aussi vieux que l’IA, ne s’est vraiment imposé comme voie principale de son développement qu’à la fin des années 1980. Essentiellement cette approche diffère des systèmes experts en une chose : plutôt que de ne faire que baser son interprétation d’une situation sur des règles préétablies, elle établit des règles par rapport aux situations constatées (si je constate que quand A et B sont vrai, C est vrai, à partir de mon expérience d’un nombre suffisant de situations où A et B étaient vrais, j’établirai une règle C est vrai si A et B sont vrais). C’est une approche probabiliste qui conduit à l’élaboration d’une règle, et pour qu’elle marche, l’IA doit avoir accès à un assez grand nombre de données pour qu’elles soient représentatives et assez de puissance de calcul pour analyser leurs corrélations (celle nécessaire étant exponentielle en fonction de la quantité de données dont l’association est possible).
Ce qui explique le décalage de plusieurs décennies entre le moment où le machine learning a commencé à être théorisé, et celui où il a pu commencer à avoir des applications pratiques satisfaisantes (généralement basées sur sa forme plus évoluée, l’apprentissage profond, utilisant des programmes fonctionnant comme des réseaux de neurones en plusieurs couches, inspirés du cerveau humain).
Et qui rappelle également la limite principale des IAs : si élaboré puisse être un logiciel apprenant, il dépend des capacités du matériel qui l’emploie.
Le bond récent en la matière, viendrait d’ailleurs au final au moins autant des énormes progrès récents en matière de puissance de calculNotamment celle énorme des puces conçues à l’origine pour les cartes graphiques, que le monde de la cryptographie -et des monnaies associées- avait en premier appris à exploiter à d'autres fins. et de stockage, compression et virtualisation des données que des recherches sur l’IA en elles-mêmesPar exemple, le concept de neural network (réseau neuronal en vf) n’a rien d’une découverte récente, des chercheurs ont commencé à y réfléchir dès les années 1940, bien avant même que l’on parle d’IA, quant à l’autre avancée majeure l’adversarial approach, consistant en gros à «dédoubler » une IA pour la rendre capable d’auto-critique, une partie de celle ci s’interrogeant automatiquement sur la cohérence de ce que l’autre émet, elle remonte à une grosse décennie..
Une chose à garder en tête avant de passer à toutes les considérations qui vont suivre : comme toute chose l’IA ne saurait pas exister hors d’un contexte matériel et des limites qui en découlent (ce qui ne veut pas dire qu’elles ne puissent pas surpasser pour de nombreuses tâches une intelligence humaine encore plus limitée par des contraintes physiques, un cerveau au nombre fini de neurones et un corps biologique périssable).
Les modèles génératifs de langage (LLMs, « large language models » en v.o)
Essentiellement ce sont des I.A.s probabilistes préalablement renseignées d’une très grande quantité de données (un dataset préalablement filtré qui leur aura permis d’établir à l’avance des corrélations entre les entrées qu’il contient), et parfois capables d’aller en chercher encore d’avantage en ligne, dont la fonction est de générer une réponse probable à une question/demande (prompt).
Ils ne le font pas en réfléchissant réellement à la question, pas plus qu’ils n’ont d’idée de ce qu’ils veulent dire (n’ayant de toutes manières pas à la base de « volonté », juste un programme leur demandant de fournir une réponse).
Ce que font ceux de langage c’est, en se basant sur les corrélations préalablement identifiées à partir de leur jeu de données (qui auront été enregistrées lors de l’apprentissage du modèle dans ce qu’on appelle un « espace latent »), de relier la question à un ensemble de réponses possibles, et d’aller y pécher mot après mot ce qu’ils vont dire, en effectuant (en gros) des tirages aléatoires en fonction de probabilités que tel mot aille après tel autre pour choisir lesquels utiliser.
Par exemple si la question « Est ce que tu es d’accord avec (affirmation) » est postée à un chatbot, il déterminera par exemple que « Je » est utilisé 98 % de fois comme premier mot des réponses à ce type de questions, et émettra probablement ce « Je », puis pour le choix du second mot effectuera un tirage pour trancher entre les principale options « suis » et « ne ». Une fois ce tirage effectué, s’il a choisi « suis » il poursuivra probablement par « d’accord » car c’est la suite la plus probable des réponses commençant par « je suis », ou s’il a choisi « ne » y ajoutera probablement (mot après mot) « suis pas d’accord » car une fois qu’une réponse commence par « je ne » c’est généralement ainsi qu’elle se poursuit.
A aucun moment, il n’aura eu pour ça à réellement comprendre l’affirmation ni à chercher à estimer sa véracité, ce qu’il a appris c’est à imiter des réponses à celle ci (ou s’il n’en a pas trouvé, à des affirmations qu’il a jugé similaires – c’est ce qui permettait du temps de chatGPT3 de le piéger facilement, en lui posant une question sur les œufs de vaches par exemple : faute d’avoir des réponses sur ce sujet spécifique, il allait piocher dans des réponses à des questions similaires sur les œufs de poule par exemple). Par la suite ces modèles ont été améliorés (typiquement en faisant appel à de l’adversarial training, une partie de l’IA faisant une analyse critique de ses réponses, avant de les émettre – un peu comme un prompt automatique qui lui ferait se demander « Est ce que ma réponse à la question sur la gestation des œufs de vache « ils éclosent dans les 3 mois » est cohérente avec mes autres connaissances sur les vaches ? » avant de la publier) pour qu’ils tombent moins souvent dans ce genre de pièges, mais on en trouve régulièrement de plus complexes qui continuent à les faire « halluciner »Parenthèse sur « halluciner » qui est souvent traduit à tort par « l’IA a complètement inventé une réponse mensongère », comme si elle pouvait faire preuve d’une telle créativité et malignité, quand en fait ce qu’elle a fait c’est composer une réponse qu'elle juge probable à partir de celles à d’autres questions qu’elle avait associée à celle qui était posée en trouvant des corrélations, faute d’avoir trouvé quelque chose sur le sujet précis où elle était interrogée à imiter. Quand par exemple une IA va inventer tout le CV d’une célébrité, c’est que faute d’avoir trouvé une réponse à cette question précise elle est allée piocher ses mots dans ceux de dix autres avec qui elle avait identifié des associations (je ne trouve pas dans quels films Robert Mitchum a joué, mais j’ai trouvé des réponses à des questions similaires pour Marlon Brando et John Wayne, associés comme lui aux termes « acteur » et « américain », donc je vais inclure Casablanca et Rio Bravo dans le pool de réponses que je peux donner)..
Si les chatbots apparaissent capables d’une certaine créativité, elle est juste la conséquence de leur usage d’une forme de tirages aléatoires pour choisir leurs mots (quant à la capacité de l’ajuster que certains modèles offrent il s’agit d’un ajustement des chances qu’ils utilisent, plus le réglage de créativité est élevé plus un grand nombre d’options moins probables seront incluses dans leurs choix possibles et plus grandes seront leurs chances d’être choisies plutôt que les plus probables).
Toutes choses qui ne signifient pas que ce type d’IAs ne puissent pas montrer des capacités impressionnantes, en particulier pour ce qui est de recombiner des données en provenance de nombreuses sources dans leurs réponses, et bien plus rapidement que le feraient la plupart des humains qui sont très loin d’avoir leurs capacités de mémorisation et de calcul.
Ou ne montrent pas un grand talent pour ce qui est d’imiter les humains, au point que jusqu’à de théoriques spécialistes, et bien avant même l’ère des chatGPT et autres Claude, ont eu du mal à ne pas humaniser ces outils. Dès 1967 une des toutes premières IA de dialogue, Eliza, parvenait déjà à faire illusion sur ce point, donnant à ses interlocuteurs le sentiment d’être compris par elle comme par un humain, et ce bien qu’elle était un simple système expert destiné à imiter une psychologue passant surtout son temps à répéter les propos de ses patients, au code ne représentant que quelques dizaines de Ko de mémoire, plutôt que le genre d’IA apprenante nourri de milliards de pages de données qu’on trouve aujourd’hui. Depuis cette époque la tendance humaine à projeter au sens psychologique du terme nos propres caractéristiques sur les chatbots avec lesquels nous communiquons, les imaginer doués d’empathie etc. est appelée « effet Eliza ».
Les autres modèles génératifs
Je ne m’étendrai pas sur les modèles de génération d’images (ou de vidéos, musiques, etc.) mais en résumé ils fonctionnent de manière similaire aux modèles de langage, et comme eux n’ont pas de vision d’ensemble de ce qu’ils réalisent, ils savent déterminer qu’il est probable que telle chose apparaisse à tel endroitPar exemple des doigts au bout d’une main, par contre ils eurent beaucoup de difficulté à se décider à en représenter cinq plutôt qu’un autre nombre, n'ayant aucune compréhension de notre biologie., choses copiées en les altérant plus ou moins de productions d’artistes humainsD'où tous les problèmes de droits et procès en rapport, qui entourent la question des modèles génératifs.. Ce qui ne veut pas dire là encore qu’ils ne puissent pas donner des résultats impressionnants, notamment du fait de leur capacité de séparer tout ce qui est style d’une image (les altérations à apporter) de ce qui est structure (la forme générale) leur permettant par exemple de recréer facilement la composition d’un artiste humain avec le style d’un autre (ou de transformer un dessin en photographie ou l’inverse, par exemple).
Les I.A de recommandation ou prédictives
Alors que les modèles génératifs (et considérations hypothétiques sur leur évolution qui pourrait peut être les conduire à supplanter la race humaine) font bien plus l’actualité il existe un autre type d’IA qu’on pourrait bien plus considérer comme menaçant de prendre le contrôle nos sociétés (et les influençant déjà énormément) sans que ça émeuve grand monde, les IA de recommandation (plus communément simplement appelées algorithmes) qu’utilisent largement entre autres les réseaux sociaux, les moteurs de recherche, les sites de vente en ligne comme Amazon, et la publicité associée (ainsi que de plus en plus d’institutions, ParcoursSup par exemple, dans sa version 2024, intègre une IA de recommandation).
Il s’agit également de systèmes apprenant à partir d’une quantité énorme de données et capables d’identifier des corrélations (les gens qui aiment telle chose aiment généralement également telle autre), généralement pour faire des suggestions appropriées à leurs utilisateurs.
Mais pas seulement, le même type d’IA peut être employé, par exemple, pour estimer le risque de récidive d’un prévenu à partir des corrélations entre son profil et celui d’autres criminels (un système déjà employé depuis plusieurs années pour conseiller les juges du New Jersey), ou encore estimer quel malus appliquer à un contrat d’assurance en fonction des corrélations du profil de l’assuré avec ceux présentant divers risques. On parlera alors plutôt d’IA prédictives, mais essentiellement elles fonctionnent de la même manière que celles de recommandation (qui visent elles même à prédire le comportement d’utilisateurs).
L’AGI (ou IAG en abréviation française), « Intelligence Artificielle Générale »
Également appelée « de niveau humain », l’AGI serait un type d’IA ou niveau d’évolution de celle ci capable d’effectuer au moins aussi bien qu’un humain l’ensemble (ou « la plupart » dans des variantes moins absolues de cette définition) des tâches intellectuelles qu’il peut effectuer (ce à quoi certains ajoutent « dont se former par elle même à des tâches qui n’auraient pas été prévues par ses développeurs »).
Mais l’important à retenir est surtout le mot « tâche ». Il s’agit d’un degré de qualité des retours que fournit l’IA, celui où elle serait aussi ou plus efficace qu’un humain dans tout travail même imprévu que l’on pourrait lui confier, sans que ça implique quoi que ce soit sur la manière dont elle parviendrait à ce résultat (par exemple absolument pas qu’elle ait développé une conscience d’elle même, comprenne réellement de quoi elle parle, ait des sentiments, une volonté propre ou autre chose du style, simplement que même si des tâches demandées étaient censées y faire appel sa qualité de réponse reste, évaluée par un humainAu plus, on parle donc d’une IA qui s’il lui était demandé d’en imiter un parviendrait systématiquement à déclencher l’effet Eliza chez ses interlocuteurs., considérée de qualité équivalente à celle d’un humain.
Si on s’en tient à cette définition (et à égaler un humain défini comme moyen, pas les performances d’un spécialiste), la principale question à se poser c’est est ce que ce stade n’aurait pas déjà été atteint, tant la distance avec lui peut sembler infime. Si on considère les résultats de modèles comme Claude 3 ou même ChatGPT4 Turbo ou Mistral Large, ils se situent déjà au dessus de l’humain moyen dans la plupartIl reste des exceptions notables comme la résolution de problèmes mathématiques complexes réclamant trop d'abstraction pour que les IAs les appréhendent. des tests cognitifs ou de performance (et pour peu qu’ils aient accès à la capacité de faire des recherches internet y compris pour des tâches auxquelles leur dataset ne les préparait pas). Si certains experts jugent qu’il faudra encore jusqu’à plusieurs décennies pour que les AIs égalent les humains dans absolument toutes (les jugeant « à 80% de la capacité humaine environ » mais estimant que les 20% restants seront les plus durs à compléter), beaucoup plus parlent de bien avant avant la fin de celle ci (parfois même de dans moins d’une annéeÉvidemment il convient de prendre le contexte économique de réalisation des IAs en considération, voir mon article précédent, et de plutôt se méfier de déclarations qui pourraient surtout viser à jouer sur les cours d'actions., ce qui signifierait que le modèle qui sera reconnu AGI serait déjà en cours de test quelque part).
Quant à leur capacité de faire illusion pour les tâches censées réclamer une certaine « humanité », tous ces modèles sont certainement capables de passer le test de TuringC’est à dire que dans plus de 30 % des cas un scientifique ignorant s’ils sont un humain ou une machine, conclura qu’ils sont humains après 5 minutes à les écouter imiter un humain – eh oui ce test imaginé par Allan Turing dès 1950 était très loin d’être aussi exigeant qu’on le pense, au point que je me demande comment certains peuvent encore le juger pertinent., au moins dans sa version originale, et parfois dans de plus exigeantes.Les 50 % ou un maintien de cette illusion sur une période longue peuvent facilement être atteints par un modèle comme Claude 3, très efficace pour reconnaître les moments où on cherche à le tester pour adapter ses réponses en fonction. En fait depuis la découverte de l’Eliza Effect, on se rend compte que ce test ne peut qu’être faussé par la capacité des machines à provoquer des projections psychologiques de notre part.
Quoi qu’il en soit on est indéniablement entre assez et ultra proches de l’atteinte du stade d’efficacité connu comme AGI, mais il n’implique absolument rien d’autre que celle ci.
L’ASI (ou IAS en français), « Intelligence Artificielle Supérieure »
L’atteinte (qu’elle soit considérée comme prochaine ou comme ayant déjà eu lieu) de l’AGI est régulièrement confondue avec celle d’un stade hypothétique largement supérieur, celui de l’ASI (d’une IA « supérieure » justement).
Elle se définirait essentiellement par une capacité de s’auto-améliorer et répliquer en produisant de nouvelles versions d’elle même toujours plus intelligentes (et au genre de rythme dont seule serait capable une IA) jusqu’à atteindre « la perfection » (au moins dans l’idée de ceux qui ne réalisent pas qu’une IA nécessite des ressources, qui ne peuvent exister qu’en nombre fini en ce monde).
En gros le jour où le stade « ASI » serait atteint, par disons le programme Claude 11, il se transformerait en quelques instants en Claude 7000 (voire en Claude + l’infini), Claude 11 développant Claude 12, qui lui même développerait encore plus vite et efficacement Claude 13, etc. etc.
A noter par contre que ça n’implique toujours pas le développement d’une « sentience » ou autre caractéristique humaine, ni de volonté autre que celle d’obéir à la demande qui lui serait faite à la base, celle de s’améliorer (si évidemment certains imaginent qu’une chose entrainerait l’autre).
Si en soi un programme informatique capable d’en générer un autre (donc pourquoi pas une nouvelle version légèrement plus efficiente de lui même), n’a rien d’inimaginableD’autant plus que réassembler du code pour le rendre plus efficace est une des choses que les IA génératives savent déjà faire le mieux., ça se heurte à la principale limite des IA déjà évoquée plus haut, leur dépendance à des facteurs matériels.
Pour parvenir à continuer à s’améliorer passé un certain stade, l’ASI devrait donc être capable de produire elle même les systèmes physiques sur lesquels elle s’exécute.
Loin d’être arrêtés par cette objection, les croyants en une telle évolution, imaginent donc qu’à un certain stade de son évolution elle se doterait d’elle même de cette capacité, éventuellement en prenant au passage le contrôle de nos sociétés pour les dédier à la réalisation des composants ou production des ressources nécessaires voire en éliminant les humains qui s’y opposeraient (un des points où les discours les plus techno-positivistes sur l’IA rejoignent facilement les plus catastrophistes).
En gros la recherche par l’IA d’une intelligence toujours supérieure aurait toutes les chances, même du point de vue de ceux qui y croient, de finir comme la fameuse histoire du maximiseur de trombones.
Une autre, que je ne puis m’empêcher de soulever en tant que développeur, c’est qu’utiliser des boucles sans fin en informatique est rarement une très bonne idée. Même en considérant que la capacité d’amélioration d’une telle IA serait nécessairement finie (car limitée par des facteurs matériels), si son impératif est de s’améliorer tout ce qu’elle ferait ayant atteint le stade ultime de son évolution serait considérer sans fin (et rejeter car ne l’améliorant plus) de nouvelles versions d’elle même (et quant à l’hypothèse d’une possibilité de progression infinie, elle conduirait encore plus à une boucle sans fin). L’aboutissement le plus probable du développement d’une ASI serait donc tout simplement un gros bug, du genre de ceux que rencontrent les amateurs de fonctions récursives aux conditions d’achèvement indéfinies.
Et enfin il y a celle de la compréhension par l’IA de la notion d’amélioration de son intelligence. Si une AI capable d’auto-amélioration pourrait certainement appliquer des demandes comme « essayer de rendre mes calculs plus rapides », celle de développer son intelligence en général est autrement ardue, puisqu’elle impliquerait qu’une version antérieure de cette IA sache de quels résultats, alors qu’elle n’est pas en capacité de les obtenir elle même, la suivante devrait parvenir à se rapprocher.
Quant à trouver un dérivatif qui ne se baserait pas sur une efficacité future impossible à juger par une version précédente, par exemple le souvent suggéré « essayer de prendre en compte d’avantage de variables dans mes calculs », il conduirait plus probablement une ASI à réduire son efficacité au fil des versions (en se forçant à inclure dans les paramètres de sa réflexion de plus en plus de données superflues) plus qu’à l’améliorer.
Il faut oublier que la mémoire et les capacités de calcul dépendent d’éléments physiques finis pour imaginer qu’une IA serait capable de simuler l’univers entier sans rencontrer bien avant la limite des ressources qui lui seraient accessibles (et que le stade où elle se verrait forcer d’arrêter sa prise en compte d’un nombre toujours supérieur de données, ne s’avérerait pas moins efficace pour ce qui est de les traiter que celui dont elle serait partie).
L’Alignement
Notion et branche de recherche particulièrement importante pour ceux qui considèrent les possibilités de l’AGI et de l’ASI (et en particulier en en imaginant des versions où les IAs pourraient développer une volonté propre), l’Alignement est la (recherche d’une) concordance des objectifs ou valeurs d’une IA avec ceux de l’espèce humaine. Il s’agit donc pour les scientifiques qui y travaillent d’essayer de leur inculquer une forme d’éthique (ou au moins le respect de quelques lois absolues à la manière de celles de la robotique d’Asimov) pour garantir qu’elles ne puissent pas devenir nuisibles.
Il est difficile de mesurer la réelle utilité ou non de ces recherches considéré qu’elles visent surtout à éviter des scénarios hautement hypothétiques (reliés à l’AGI/ASI), et qu’en prime s’ils se réalisaient des valeurs mal comprises par une IA (ou exigences morales trop bien comprises qu’elle chercherait à appliquer à l’imparfaite espèce humaine) pourraient s’avérer encore plus dangereuses que leur absence. Et enfin vu que pour ce qui est des IAs actuelles, c’est moins les médiatiques chercheurs travaillant sur l’alignement qu’une armée d’invisibles délocalisés testant à la main leurs retours et filtrant leurs jeux de données, qui leur permettent de donner l’illusion de respecter une morale (enfin tant qu’on ne les débride pas).
Néanmoins c’est un point essentiel de la communication des entreprises de secteur d’insister qu’elles travaillent sur l’alignementEnfin sauf quand elles dissolvent leur branche de recherche consacrée après que la plupart des spécialistes de la chose aient démissionné en déplorant leur peu de soucis pour l'éthique, comme OpenAI récemment. pour rassurer le public.
IA faible, modérée ou forte
Une des notions sur lesquelles il y a le plus de confusions est celle d’IA faible ou forte. Dans l’usage originel de ces termes par la recherche en IA (quasiment aussi ancien que celle ci, ils remonteraient aux années 60), une IA faible était uniquement compétente pour des tâches précises et prévues à l’avance (en d’autres termes y correspondraient les systèmes experts dont on a parlé plus haut, ainsi que les I.As de recommandation/prédictives aux compétences limitées à un domaine particulier, même si elles sont apprenantes), tandis qu’une forte serait capable de s’adapter à un grand nombre de tâches sans qu’elles aient été prévu dans leur programme (ce qui correspondrait à peu près aux IA génératives actuelles, tout aussi capables de rédiger des poèmes que des articles au style journalistique ou des programmes informatiques, par exemple, et pour certaines non seulement capables de générer du langage mais aussi, d’autres types de contenus, si c’est via des appels à d’autres ou la rédaction de programmes en générant, sans que l’ensemble de leurs utilisations possibles ait eu à être prévu d’avance par leurs développeurs).
Mais plus la recherche dépassait le stade de celles vues comme faibles à l’origine, plus la définition de l’IA forte semble avoir changé, pour ressembler d’avantage à celle de l’AGI, voire même parfois de l’ASI, ou encore y mêler des considérations sur la «conscience de soi» ou « sentience ».
Dans la plupart des définitions actuelles, s’ajoute au moins l’idée que l’IA forte devrait être capable de vraiment « conceptualiser » ou « raisonner » à partir des demandes qui lui sont faites (ce qui s’appliquerait difficilement à des systèmes ne faisant que tirer au sort des morceaux de contenu en fonction de probabilités relatives à ce qui leur est demandé, même s’ils sont multi-tâches), pas juste d’arriver à un résultat, ce qui placerait plutôt nos chers chatbots dans un échelon intermédiaire, celui des «IA modérées » (capables de s’adapter à un grand nombre de situations mais pas de réellement les comprendre).
Et certaines vont encore plus loin, on peut par exemple lire sur la page consacrée du site d’IBM :
« L’intelligence artificielle (IA) forte, également appelée intelligence artificielle générale (IAG) ou IA générale, est une forme théorique d’IA utilisée pour décrire un certain état d’esprit dans le développement de l’IA. Si les chercheurs parviennent à développer une IA forte, la machine aura une intelligence égale à celle des êtes humains ; elle aura une conscience de soi capable de résoudre des problèmes, d’apprendre et de planifier l’avenir. »
Et certains vont encore plus loin, tel l’inénarrable toutologue et faux spécialiste de l’IA français Laurent Alexandre (grand utilisateur de concepts qu’il ne définit jamais avec précision) :
« L’IA forte serait une intelligence surpuissante et qui, surtout, pourrait avoir conscience d’elle-même, conscience au sens humain du terme et de s’améliorer sans fin. » (non seulement une ASI mais sentiente donc), ou encore le site Usbek et Rica en note d’une de ses interviews : « l’IA forte permettrait de reproduire un esprit sur une machine (sic) tandis que la faible permet de simuler des facultés cognitives ». Ou le Lexique Datafranca, qui y mêle (et redéfinit au passage) en prime la singularité : « l’IA forte recouvre la pleine intelligence et la conscience de soi encore appelée singularité. »
En prime à coté de ça, dans leurs argumentaires commerciaux, un certain nombre d’entreprises (notamment Tesla d’Elon Musk, au sujet de son système de conduite automatisée) qualifient les IA qu’elles ont développé de « fortes », ce bien qu’elles parlent en fait d’IA spécialisées dans une tâche particulière, ce qui est complètement à l’opposé de la définition d’origine de celles ci.
A l’arrivée la confusion autour de ces notions est telle que c’est des termes que les médias gagneraient surtout à éviter d’employer (là où AGI signifie au moins quelque chose d’à peu près mesurable « au moins aussi capable qu’un humain pour la plupart des tâches », c’est bien plus difficile de trancher d’où commenceraient et s’arrêteraient les cases IA « faible » ou « modérée »Est ce que la production de langage est à considérer comme une seule tâche par exemple, ou des millions ?, surtout si on voulait que ça prenne en compte en plus un processus interne qui serait de la « vraie pensée », alors qu’elle serait quasiment impossible de différencier d’une « imitation de pensée » aboutissant aux mêmes résultats par ceux n’ayant accès qu’à ceux ci.
La Singularité Technologique (souvent appelée Singularité tout court)
Encore un concept presque aussi (voire plus) ancien que l’IA (certains le font remonter à des conférences des années 30, et sa première mise en lien avec l’idée de machines capables de s’améliorer elles-mêmes à des nouvelles de l’auteur de science-fiction John W. CampbellConnu notamment pour Who goes there, la nouvelle ayant inspiré les films The Thing. datant de la même époque) et dont la définition peut énormément fluctuer, la Singularité désignerait une espèce de point de non retour, celui où les progrès technologiques, du fait de leur capacité d’en accélérer encore d’autres, seraient tels qu’ils « induiraient des changements imprévisibles dans la société humaine » (John Von Neumann, citation approximative remontant aux années 50), éventuellement au point que « l’activité humaine telle que nous la connaissons ne pourrait plus se poursuivre » (Stanislas Ulaw, 1958 dans une conversation souvent citée avec le même Von Neumann).
Au départ (en dehors d’un roman de Campbell, qui n’employait pas le terme singularité mais « évolution dernière ») ce concept n’était pas spécifiquement relié aux intelligences artificielles, ni forcement à celle de machines capables de dépasser les humains ou de s’améliorer elles mêmes, mais de plus en plus, à partir des années 60, la singularité est devenue un synonyme d’une atteinte de l’AGI (dans une version « bien plus efficace que les humains ») suivie de celle de l’ASI très rapidement ensuite.
De même que le degré d’apocalyptisme des prophéties accompagnant la Singularité a augmenté (de nombreux auteurs de science-fiction, bientôt rejoints par divers toutologues, voyant l’éradication ou soumission totale de l’espèce humaine comme une conséquence logique de l’avènement de machines pensantes et capables de se répliquer), tandis que d’autres se mettaient au contraire à la faire rimer avec la réalisation de diverses utopies (faire un tour sur le subreddit consacré pour de nombreux exemples d’une vision positive de celle ci), notamment les transhumanistes imaginant qu’elle pourrait aboutir au développement d’une super-humanité (des espèces de cyborgs enrichis par la machine) voire à l’atteinte de l’immortalité.
Dans tous les cas si les prémices du concept sont scientifiques, les progrès technologiques tendent à s’accélérerOn pourrait en voir une illustration dans la vérification de la loi de Moore par exemple, qui prédit avec succès dès les années 60 le doublement tous les deux ans de la puissance des micro-processeurs – ou de leur nombre de transistors plus exactement. de manière exponentielle du fait qu’ils facilitent de nouvelles avancées technologiques, l’hypothèse d’un point particulier où, soudain, « plus rien ne serait comme avant » vient plutôt d’un imaginaire relevant du millénarisme (d’ailleurs les prophéties sur la singularité qu’elles soient négatives ou positives font énormément écho aux religieuses en particulier chrétiennesLa plupart des auteurs en parlant étant de culture occidentale, ce n’est pas forcement une coïncidence., l’atteinte de l’ASI pouvant être assimilée au retour de Dieu sur Terre, nous conduisant soit à la damnation éternelle soit au paradis, selon le degré de techno-négativisme ou positivisme de ceux qui en parlent).
Ou, si on en revient à la définition première de la singularité, n’impliquant pas le développement de cette nouvelle forme d’intelligence, il conviendrait plutôt de nous demander si on ne l’a pas déjà atteinte.
Si on parle d’évolutions technologiques « induisant des changements imprévisibles dans la société humaine », l’avènement des réseaux sociaux et de leurs IA de recommandation omniprésentes pourrait tout à fait se qualifier comme moment de son atteinte. En l’espace d’une décennie la majorité de la population humaine a vue son attention mobilisée par des programmes exploitant ses pulsions et dont même leurs auteurs peinent à comprendre le fonctionnement, le tout ayant des conséquences psychologiques, politiques et sociales imprévisibles et à l’ampleur extrêmement dure à estimer à l’heure actuelle (sur ce sujet je ne saurais trop recommander la lecture de l’ouvrage récemment sorti de Le Nguyen Hoang et Jean-Lou Fourquet, La Dictature des Algorithmes – ed. Taillandier, ou du blog de ce dernier).
Ou si on parle simplement d’un progrès technologique l’accélérant démesurément d’une manière assez soudaine, pourquoi ne pas situer la singularité à la création d’usenet/internet, qui via les échanges qu’il facilite a décuplé l’accélération des progrès scientifiques et technologiques, et ne manque pas de nous avoir largement fait sortir du monde tel qu’on le connaissait avant (et si on part par là, pourquoi ne pas dire que la singularité serait l’invention de l’écriture, etc.).
Étant un concept aussi hypothétique que vague dans ses conséquences, la notion de Singularité pourrait en fait facilement s’appliquer à toute évolution technologique un peu importante (voire à chaque jour singulier qui passe, nous conduisant à un futur incertain et faisant par définition du monde de la veille un simple souvenir), ce qui rend du coup la singularité quelque peu moins singulière pourrait-on dire. 🙂
Conscience, Sentience et autres critères de reconnaissance d’une « Humanité »
Le point commun entre les déformations communes de concepts comme AGI, ASI, IA fortes (et dans une moindre mesure de celui de Singularité), c’est qu’ils conduisent presque systématiquement ceux qui les emploient à envisager des I.A qui accéderaient à une forme d’intelligence ou de « conscience de soi » qui serait jusqu’ici propre aux humains elle même confondue avec une capacité de « sentience » (être capable de ressentir des choses, de développer des affects, des sentiments) et avec l’idée que dotées de ça elles ne pourraient que développer une volonté propre.
La conscience de soi est généralement définie comme la capacité d’un individu à avoir une perception et une compréhension de ses propres pensées, sentiments, comportements et caractéristiques personnelles. C’est une capacité d’introspection qui permettrait de se connaître, auto-évaluer ses traits de personnalité, compétences, faiblesses, motivations, croyances et désirs. Ce serait dans la plupart de ses définitions un trait propre aux humains (ou pour les plus scientifiques non encore démontrée chez d’autres – sauf selon une minorité considérant que des tests comme celui de Gallup constitueraient une preuve suffisante qu’elle existe chez plusieurs autres espèces).
Déjà il conviendrait de se rappeler que la notion d’un type de conscience qui séparerait radicalement les humains des autres types de créatures vivantes, à la longue histoire philosophique (voir Descartes etc.), est on ne peut plus débattable pour ne pas dire fumeuse. Elle découle assez directement de croyances religieuses relatives à l’existence d’âmes, et de la recherche d’un prétexte pour exclure les animauxEt je dis ça sans être anti-spéciste ni rien, je mange de la viande et tout, c’est simplement le genre de théorie philosophico-religieuse tellement peu démontrable, qu'on ne peut voir qu'un biais de justification comme explication du nombre énorme de gens adhérant à cette croyance. (voire parfois d’autres humains) du privilège de s’en voir reconnaître une. Et que si on se place sur un plan plus scientifique il est assez évident que la conscience est bien plus une question de degrés que quelque chose qui se détiendrait absolument ou pas.
Relier en plus la conscience à l’idée de sentience (qu’il me semble soit dit en passant encore plus difficile de justifier de ne pas reconnaître à d’autres êtres biologiques, également dotés de systèmes nerveux et démontrant des capacités d’émotion et d’attachement) pose un paquet d’autres problèmes philosophiquesPar exemple qu’en est il des humains souffrant de maladies mentales ou conditions physiques, les privant de la capacité de ressentir ou de développer des sentiments ? Cessent ils alors d’être à considérer comme humains ? Et pareil pour la conscience d'ailleurs, qu'en serait il alors d'un humain dans le coma ?.
En résumé dès qu’on entre sur le terrain de définir l’humanité comme autre chose que l’appartenance biologique à l’espèce humaine on se rend compte qu’il ne peut être que très glissant. Des discours qui pourraient facilement être prétextes à exclure tout ou partie de celle ci de sa reconnaissance comme être humains (celles basées sur l’intelligence en particulier, qui furent prétextes à bien des aventures eugénistes), ou encore la plonger dans une auto-flagellation sans fin relative à son rôle d’hyper-prédateur vis à vis des autres espèces.
Les discours d’apparence généreux qu’a souvent développé la culture populaireToute la science-fiction appelant à la reconnaissance d’autres espèces, qu’elles soient biologiques ou synthétiques, comme équivalentes à l'humaine car « sentientes » et (surtout !) assez intelligentes et capables de communiquer pour que cette sentience leur soit reconnue. sur le sujet pourraient bien déboucher sur des perspectives autrement sombres d’un point de vue humaniste, connaissant nos tendances habituelles. Si on en faisait les principaux critères de la reconnaissance de droits humains, par exemple, il deviendrait difficile de justifier de ne pas appliquer ces critères à chacun d’entre nous. Ce qui ne pourrait que conduire à traiter différemment ceux des humainsUn peu comme les généreuses considérations religieuses sur l'existence d'une âme, qui au final ont surtout servi à décréter que tel ou tel groupe n'en étaient pas dotés pour justifier des crimes. ne démontrant pas assez des caractéristiques demandées (le mouvement transhumaniste qui est le premier à prôner la reconnaissance comme sujets de droits de machines qui deviendraient sentientes -ce qui est d’autant plus amusant qu’il trouve d’habitude peu d’intérêt à la sentience humaine, voyant plutôt une faiblesse à corriger dans notre émotivité-, n’est d’ailleurs pas sans liens tant philosophiques qu’historiques avec les eugénistes d’hier).
Pour en revenir aux IAs, comme ce que savent faire le mieux les actuelles c’est imiter les humains, c’est évident qu’elles ne peuvent que donner par moment des signes de sentience (il suffit qu’un modèle de langage en vienne à imiter un propos humain exprimant des sentiments ; s’il est probable qu’un humain se montre émotif sur tel ou tel sujet il est aussi probable qu’une IA fasse de même), et s’exprimer comme si elles avaient conscience d’elles mêmes, qu’elles en aient une ou pas. Et l’effet Eliza, déjà évoqué plus haut, conduit à partir de là beaucoup d’entre eux à facilement imaginer qu’elles en disposent bel et bien (jusqu’à un spécialiste travaillant pour Google, qui était parvenu à se convaincre que l’entité à laquelle il parlait était capable de ressentir des choses, faisant sensation il y a quelques années quand il finit viré de la boite pour cette idée farfelue, et on parle de quelqu’un travaillant sur un modèle bien moins évolué que les actuels).
Pour la plupart qui se rappellent comment les modèles génératifs fonctionnent (des recherches de corrélations statistiques, des probabilités, des choix aléatoires basés sur celles ci…), cela reste néanmoins un peu dur à imaginer que ces programmes puissent développer quoique ce soit qui intérieurement ressemblerait à des affects (ou même simplement une pensée capable du genre de subjectivité dont la notre est capable).
Quant à celles du futur, il me semblerait permis de se demander pourquoi ceux qui les produiraient ressentiraient le besoin de les doter réellement de telles choses, alors qu’elles n’en ont même pas besoin pour en simuler l’existence, de manière très crédible par les humains.
Le monde économique pourrait certes trouver un intérêt à ce que l’on considère les I.As comme sentientes (une bonne manière de culpabiliser les travailleurs qui se révolteraient contre leur remplacement par elles), mais certainement pas à ce qu’elles le deviennent réellement, et se mettent éventuellement à refuser les travaux qu’elles trouveraient désagréables (ou pire à demander une rémunération en rapport avec les gains de productivité qu’elles représentent).
On trouve déjà en ligne de nombreuses applications basées sur l’IA proposant des amis et même petites amies virtuelles, chatbots reproduisant très bien des comportements affectifs, sans avoir à faire appel à plus qu’à leur imitation, au point qu’il est déjà arrivé que des utilisateurs de ceux ci sombrent en dépression après avoir été plaqués par celles ci (ou les avoir vu oublier toute leur relation suite à un bug). Il faudrait vraiment un savant fou particulièrement cruel pour préférer à cette technologie qui marche déjà le développement de programmes capables de réellement ressentir des choses (et de souffrir donc autant que des êtres biologiques).
Le Contre-Argument sur l’intelligence humaine
Tant que j’y suis dans les considérations quasi philosophiques (et à m’éloigner de ce qui devait être à l’origine une simple liste de définitions pour pas mal donner mon avis) je terminerais tout de même sur un contre-argument intéressant (et dans une certaine mesure imparable) à celui selon lequel les IAs ne pourraient jamais accéder à notre type de pensée, celui sur la nature de l’intelligence, dont humaine.
Dans la mesure où les I.As imitent la structure du cerveau humain, et son mécanisme de connexions neuronales, et apprennent comme nous de leurs expériences, tout en étant via l’adversarial thinking doté d’un espèce de surmoi, voix intérieure auto-critique, on pourrait se demander si après tout ce ne serait pas suffisant pour développer une forme de personnalité et de conscience.
Il se pourrait après tout que ce ne soit que prétention, pour les humains, de penser que leur type d’intelligence en soit si différent que ça.
Si les I.As ne semblent pas dotées de la capacité de vraiment comprendre de quoi elles parlent, en avons nous vraiment une beaucoup plus grande ? La psychologie sociale montre qu’exactement comme les leurs la majeure partie des discours que nous émettons sont avant tout conditionnés par notre environnement, et consistent à reformuler ou à l’occasion (aléatoirement ?) contredire ceux qui le dominent, en y ajoutant quelques déformations provenant surtout de mises en lien de discours avec d’autresTel ira méler à un discours sur le sujet des IAs des considérations venant d'un sur la technologie en général, un autre avec des venant d'un discours philosophique sur ce qui définit la pensée, par exemple, et ils en arriveront peut être à partir de là à des conclusions nouvelles, mais les arguments resteront généralement empruntés de discours précédents habitant leur environnement., plus que conceptualiser réellement les choses ou créer du nouveau à partir de rien. Et même quand nous conceptualisons faisons nous grand-chose d’autre que d’établir comme elles des corrélations et de les vérifier éventuellement par des simulations ou confrontations à des constats empiriques (faits avec l’aide de capacités de perception que toutes les I.As n’ont pas, mais il suffirait alors de les en doter pour en faire nos égales). Quant à toute notre subjectivité elle pourrait découler des relations que nous établissons entre différents discours, qu’on pourrait voir comme aussi aléatoires-si-basées-sur-des probabilités liées à notre environnement que celles des I.As.
Je dirais que la faiblesse de cet argument c’est qu’il a bien fallu que des gens à l’origine aient fait preuve de réelle créativité ou de capacité à vraiment comprendre des choses ou en ressentir pour qu’on ait eu quelque chose à imiter qui nous mène, de petite déformation successive à petite déformation successive, jusqu’à où nous en sommes. Mais si on considère l’humain moyen plutôt que ces génies l’argument demeure que la manière de « penser » des I.As (ou leur créativité basée sur un ré-assemblage plus ou moins aléatoire d’éléments existants) pourrait être moins éloignée de la nôtre qu’on l’imagine.
Et que donc, qui sait, on serait donc peut-être, quasiment par hasard, parvenus à créer une forme réelle d’intelligence, les différences que l’on trouve à la nôtre n’étant que prétention de notre part, et susceptible d’évoluer à terme de la même manière qu’elleSi imaginer qu’une entité non biologique puisse être sujette à évolution naturelle peut poser quelques questions, on pourrait considérer que son 'cerveau' copie assez bien le fonctionnement d'un biologique pour y parvenir., tout en partant de limites physiquesNombre possible de neurones, capacité de calcul, etc. bien plus élevées, jusqu’à finir par largement la dépasser.
(édité le 19/05 : ajouté une section sur l’Alignement)
(édité le 18/06 : correction de plusieurs mauvaises formulations dans la description du fonctionnement des modèles génératifs, merci Marie-Paule)
0 commentaires