L’intelligence artificielle continue de surprendre dans des domaines inattendus. Dernier exemple en date : une étude menée par l’Université de Pittsburgh révèle que les poèmes de l’IA (en l’occurrence, générés par ChatGPT) surpassent ceux des grands auteurs classiques — tous anglophones pour cette étude — dans l’esprit des lecteurs. De Shakespeare à Dickinson, aucun n’échappe à cette étrange préférence.
Alors, comment s’est déroulée cette étude étonnante sur la poésie générée par IA ? Et que révèle-t-elle sur les capacités de l’intelligence artificielle et notre appréciation de ses productions artistiques ? Tentons d’y répondre dans cet article 😉
Poésie et IA : l’étude en bref
L’Université de Pittsburgh a donc mené une étude ambitieuse pour explorer la perception des poèmes générés par l’IA comparés à ceux écrits par de grands poètes classiques. L’objectif était simple : déterminer si des lecteurs non-experts (entendez par là, des lecteurs non habitués à lire de la poésie) étaient capables de distinguer ces deux types d’œuvres et les faire juger les différentes productions sur des critères d’appréciation subjectifs.
Publiée dans la célèbre revue « Nature » le 14 novembre dernier, l’étude s’est donc déroulée en deux expériences :
- Distinction IA/humain :
- 1 634 participants ont évalué 10 poèmes chacun, sélectionnés de manière aléatoire dans une base de 100 poèmes. Pour chacun de ces 10 poèmes, 5 étaient rédigés par des poètes classiques comme Shakespeare, Byron ou Dickinson, et 5 générés par ChatGPT 3.5.
- L’ordre des poèmes était aléatoire, et les participants devaient indiquer si chaque texte était écrit par un humain ou une IA.
- Évaluation qualitative :
- 696 participants ont quant à eux noté un échantillon de 10 poèmes sur 14 critères qualitatifs, tels que le rythme, la beauté, l’émotion et l’originalité.
- Les participants ont été répartis en trois groupes : certains pensaient que les poèmes étaient humains, d’autres qu’ils étaient générés par IA, et un dernier groupe n’avait aucune information sur leur origine.
Pour garantir une comparaison équitable, les poèmes humains provenaient d’auteurs emblématiques couvrant plusieurs époques, tandis que les poèmes IA étaient générés « dans le style de » ces mêmes auteurs, via ChatGPT-3.5.
Des poèmes « plus humains qu’humains »
Les résultats de l’étude sont sans appel : les lecteurs non-experts peinent à distinguer les poèmes générés par l’IA de ceux écrits par des auteurs humains célèbres. Pire encore (ou mieux, selon le point de vue), les poèmes IA sont souvent jugés « plus humains » que leurs homologues classiques !
Voici ce que les deux expériences ont révélé.
Une discrimination quasi-impossible entre IA et humain
Pour rappel, lors de la première expérience, les participants devaient identifier l’origine de 10 poèmes : cinq générés par ChatGPT-3.5, cinq écrits par des poètes de renom. Le score d’identification correct ? Un maigre 46,6 %, inférieur au « score » du hasard (établi à 50%).
Fait encore plus étonnant : les poèmes IA étaient plus souvent perçus comme humains que les poèmes classiques eux-mêmes ! Par exemple :
- Les 5 poèmes les moins « humains » étaient tous écrits par de vrais poètes humains.
- À l’inverse, 4 des 5 poèmes les plus souvent jugés « humains » avaient été générés par ChatGPT.
Pourquoi cette confusion ?
Des éléments comme un rythme fluide ou des émotions directes, retrouvés sans difficultés dans les poèmes de l’IA (promptée pour rédiger « dans le style de », rappelons-le), semblent inconsciemment associés à une origine humaine.
Pourquoi les poèmes de l’IA séduisent autant ?
La deuxième expérience de l’étude apporte des réponses. Ici, 696 participants ont évalué des poèmes sur 14 critères qualitatifs comme le rythme, le caractère inspirant du texte, sa profondeur, son « humeur » ou encore sa qualité globale.

Légende : Notation pour les 14 mesures d’excellence poétique.
Résultats : les poèmes IA surpassent leurs homologues humains dans 9 de ces 14 critères, notamment sur les aspects suivants :
- Rythme : une fluidité exceptionnelle, avec un effet Cohen d = 0,847 (très significatif).
- Clarté émotionnelle et thématique : les poèmes IA évitent les métaphores complexes, et « préfèrent » des images directes qui touchent facilement.
- Beauté esthétique : leur simplicité séduit par une harmonie apparente, sans chercher à impressionner par l’érudition.

Légende : Qualité globale des 5 poèmes générés par l’IA vs. humains. La ligne bleue verticale correspond à la note moyenne de tous les poèmes et participants
En revanche, l’originalité reste un point faible pour l’IA. Les lecteurs perçoivent ses œuvres comme trop conventionnelles, tandis que les poèmes classiques continuent d’exceller dans ce domaine.
Accessibilité vs complexité
Le succès des poèmes produits par l’IA sur un public « tout-venant » repose peut-être donc sur l’accessibilité du style et des émotions qu’ils transmettent. Les IA évitent les tournures complexes et les références culturelles obscures. Cela plaît aux lecteurs non-experts, qui lisent rarement de la poésie : dans l’étude, 90 % des participants déclaraient en lire « quelques fois par an ou moins ».
En comparaison, les poèmes classiques, plus sophistiqués, sont parfois perçus comme incohérents. Par exemple, « The Boston Evening Transcript » de T.S. Eliot, une satire référentielle, a souvent été jugé incompréhensible.
Résultat : les lecteurs interprètent leur préférence pour les poèmes IA comme une preuve d’origine humaine. Ce biais d’attente inversé – croire que tout ce qui plaît doit être humain – illustre un des préjugés bien ancré sur l’intelligence artificielle.
Quand l’origine change tout
Dans le prolongement de cette analyse, l’étude a également montré que notre perception de la poésie dépend fortement de ce que nous savons de son origine.
Sans contexte, le texte triomphe
Dans la première expérience, les participants ignoraient l’origine des poèmes, leur jugement reposait donc uniquement sur le texte. Et on l’a vu, les poèmes de l’IA ont été mieux perçus que ceux des poètes classiques. Ce cadre neutre a permis de révéler une préférence sincère pour les qualités formelles et émotionnelles des poèmes générés par ChatGPT, sans biais explicite lié à leur origine.
Mais que se passe-t-il lorsque cette origine est explicitée ?
En connaissance de cause, les biais surgissent
Dans la deuxième expérience, certains participants savaient que les poèmes qu’ils évaluaient étaient générés par l’IA, tandis que d’autres pensaient qu’ils étaient humains. Un troisième groupe, en revanche, n’avait aucune information sur l’origine des textes.
Les résultats de cette deuxième étude contrastent fortement avec ceux de la première.
Pour :
- Les poèmes présentés comme humains, ils ont reçu des notes significativement plus élevées sur 12 des 14 critères, quelle que soit leur véritable origine.
- Les poèmes présentés comme IA : ils ont vu leurs évaluations baisser sur presque tous les critères, même lorsqu’ils étaient objectivement identiques.
- Le groupe sans information sur leur origine, les poèmes IA ont continué de surpasser les poèmes humains dans des dimensions clés comme le rythme et l’émotion.
Ce constat met en lumière l’apparition d’un biais d’étiquetage : lorsque les lecteurs savent qu’un texte est issu d’une IA, leur jugement devient plus critique.
Une question de perception
Alors, pourquoi ce biais ? L’analyse confirme ce qu’on aurait pu pressentir naturellement : pour nous humains, l’idée qu’une IA puisse créer des œuvres littéraires de qualité reste difficile à accepter.
Les lecteurs anticipent ainsi que les poèmes humains seront de meilleure qualité, et que les œuvres créées par l’IA manqueront de profondeur ou de créativité.
Cependant, lorsqu’ils ignorent l’origine des textes, ces attentes disparaissent : l’évaluation est purement basée sur la qualité perçue. Et le style de l’IA convainc (les non-initiés en tout cas).
Du coup, les résultats de cette étude interrogent notre rapport à la créativité : si l’IA peut rivaliser avec des figures comme Shakespeare, quel sera l’impact sur l’art et la littérature dans les années à venir ? D’autant que l’étude a été menée avec l’aide de ChatGPT 3.5, soit un modèle déjà obsolète en cette fin d’année 2024… La génération des poèmes aurait pu être confiée à des modèles encore plus performants, GPT-o1 par exemple, et brouiller encore davantage les pistes.
Le développement fulgurant des capacités de l’IA générative va forcément nous amener à réfléchir à cette question : dans quelle mesure sommes-nous en capacité d’apprécier une œuvre pour ce qu’elle est, indépendamment de son créateur ?
0 commentaires
Trackbacks/Pingbacks