Quand l’IA confond gratte-ciel et trombone : une expérience qui révèle ses limites

Quand l’IA confond gratte-ciel et trombone : une expérience qui révèle ses limites credit : credit : votrequotidien.ca (image IA)

L’illusion de l’intelligence artificielle

credit : votrequotidien.ca (image IA)

Les intelligences artificielles génératives, comme ChatGPT ou Gemini, se sont installées dans notre quotidien à une vitesse folle. On parle de 800 millions d’utilisateurs par semaine, un chiffre qui chute drastiquement pendant les vacances scolaires, ce qui en dit long sur leur public principal. Pourtant, malgré cette omniprésence, leur nature reste fondamentalement statistique. Elles ne « comprennent » pas le monde ; elles calculent des probabilités sur la base des milliards de données sur lesquelles elles ont été nourries.

Dès qu’on les sort de leur zone de confort, le vernis craque. Une requête apparemment simple, comme demander de dessiner un gratte-ciel et un trombone à coulisse côte à côte pour comparer leurs tailles, produit des résultats absurdes. L’image générée par Gemini, où les deux objets sont à la même échelle, est immédiatement identifiée comme un non-sens par un enfant de cinq ans. C’est le point de départ parfait pour questionner ce que ces outils savent vraiment faire.

Une technologie omniprésente mais mal comprise

credit : votrequotidien.ca (image IA)

Trois ans seulement se sont écoulés depuis le lancement fracassant de ChatGPT, mais cela semble une éternité dans le monde tech. La société, elle, peine encore à définir la place de ces IA. Sommes-nous face à des outils indispensables ou à de simples gadgets tape-à-l’œil ? La culture populaire oscille entre deux extrêmes : la crainte d’une superintelligence incontrôlable et le mépris pour une technologie jugée inutile. Des appels à la pause dans la recherche côtoient des prophéties annonçant la fin de l’enseignement supérieur.

Cette polarisation empêche souvent un regard nuancé. Pendant ce temps, près d’un étudiant sur deux utilise régulièrement ces outils. Ils peuvent briller au barreau ou analyser des radiographies mieux qu’un humain, mais échouent misérablement à des tâches de bon sens. Cette contradiction est au cœur du problème : nous attribuons une forme d’intelligence à des systèmes qui n’en possèdent pas la substance. Peut-être est-ce nous qui projetons trop.

L’expérience révélatrice : banane contre porte-avions

credit : votrequotidien.ca (image IA)

Frédéric Prost, maître de conférences, mène une expérience récurrente pour tester les limites des IA génératives d’images. Il leur demande de représenter deux objets aux dimensions radicalement différentes, comme une banane et un porte-avions, en précisant bien l’intention de comparer leurs tailles. Le résultat, quel que soit le modèle (Mistral, Gemini, etc.), est systématiquement dénué de sens. Les objets apparaissent côte à côte, mais sans le moindre respect des proportions réelles.

Ce qui est fascinant, c’est que l’image rend cette faille palpable, presque choquante. Dans un texte, une erreur de raisonnement peut passer inaperçue sous un flot de mots plausibles. Mais une image absurde saute aux yeux. Elle montre clairement que le modèle n’a aucune représentation interne de ce que « comparer » signifie. Il associe juste deux concepts qu’il a vus séparément des milliers de fois, sans jamais les avoir mis en relation dans un contexte spatial cohérent.

Comment fonctionnent ces modèles ? Le cœur statistique

credit : votrequotidien.ca (image IA)

Pour comprendre ces erreurs, il faut plonger dans le fonctionnement de ces systèmes. D’un côté, les modèles de langage (LLM) comme ceux de ChatGPT sont entraînés sur des masses colossales de texte. Leur but ? Deviner statistiquement le mot le plus probable à venir dans une phrase. Ils n’ont pas de connaissance, mais une immense table de corrélations. De l’autre, les modèles de diffusion qui génèrent des images fonctionnent différemment. Ils apprennent à reconstruire une image à partir d’un bruit aléatoire, un peu comme deviner un dessin à partir d’une page gribouillée.

Ces modèles sont entraînés avec des paires image-texte. Ainsi, Gemini a vu des milliers de photos de gratte-ciels sous tous les angles, et tout autant de photos de trombones à coulisse en gros plan. Mais il est extrêmement rare, voire impossible, que ces deux objets figurent ensemble dans sa base d’apprentissage. Le modèle n’a donc aucune idée de leurs dimensions relatives. Quand on lui demande de les juxtaposer, il pioche dans deux tiroirs différents et assemble sans comprendre.

L’absence de compréhension : l’exemple des années bissextiles

credit : votrequotidien.ca (image IA)

Cette lacune n’est pas limitée aux images. Prenons un exemple textuel avec Gemini. On lui demande si le jour de la fondation des États-Unis (1776) tombait une année bissextile. Avec la technique « Chain of Thought » (Chaîne de Pensée), conçue pour décomposer les problèmes complexes, le modèle raisonne étape par étape. Il applique correctement la règle : 1776 est divisible par 4 et n’est pas une année séculaire, donc c’est une année bissextile. Puis, il conclut de manière aberrante : « Par conséquent… c’était dans une année normale. »

Le modèle déroule parfaitement un raisonnement statistiquement associé à la question, mais il n’enchaine pas logiquement les étapes jusqu’au bout. Il n’y a pas de vérité logique interne, seulement une suite de tokens probables. Ce « glitch » est révélateur. L’IA peut simuler un raisonnement sans le posséder, créant ces moments surprenants où elle dit à la fois A et non-A. C’est moins visible qu’un gratte-ciel de la taille d’un trombone, mais tout aussi fondamental.

Conclusion : Pour une relation lucide avec l’IA

credit : votrequotidien.ca (image IA)

Alors, faut-il avoir peur de l’IA ? Ces expériences nous invitent plutôt à la lucidité. Elles nous rappellent que nous avons affaire à des outils statistiques extrêmement puissants, capables d’imiter la pensée humaine dans des domaines bien rodés, mais totalement dépourvus de sens commun et de compréhension du monde. Le danger n’est peut-être pas une superintelligence malveillante, mais plutôt notre propre tendance à surestimer ces systèmes et à leur faire confiance aveuglément.

Aujourd’hui, les IA génèrent une part considérable du contenu sur internet. La prochaine fois que vous lirez un article au ton parfait mais au raisonnement un peu bancal, ou que vous verrez une image étrange, souvenez-vous du gratte-ciel et du trombone. C’est un rappel salutaire : derrière l’interface fluide se cache une machine qui calcule, mais ne pense pas. Le vrai travail, celui de la critique, du jugement et du bon sens, reste, heureusement, humain.

Selon la source : science-et-vie.com

Ce contenu a été créé avec l’aide de l’IA.