ChatGPT intègre désormais l’analyse et la génération d’image via DALL-E

Mis à jour le 19/01/2024 | Publié le 17/10/2023

En l’espace d’une semaine, en France, Open AI vient d’ouvrir l’accès à deux nouvelles features de poids pour la version payante de son assistant conversationnel, ChatGPT.

L’analyse d’image à l’intérieur même de la discussion « par défaut » de l’outil bluffe par sa précision, et la valeur ajoutée qu’elle apporte. Et voilà que, depuis quelques jours, la génération d’image avec Dall-E 3 est désormais possible.

Tour d’horizon des possibilités de ces 2 nouvelles fonctionnalités vraiment impressionnantes, qui poussent l’usage de l’IA générative encore un peu plus loin !

Disclaimer : ce petit encadré pour préciser que je ne fais pas ici l’apologie d’une technologie au détriment de l’utilisation du cerveau humain. Je me positionne davantage sur l’IA avec enthousiasme, en la prenant telle qu’elle est aujourd’hui : une porte ouverte vers la simplification de tâches chronophages ou peu créatives. Ce qui nous laisse plus de temps pour réfléchir, interpréter, pressentir, déterminer.

Images dans ChatGPT : une capacité d’analyse bluffante

C’est désormais là, et bien là : avec « ChatGPT Vision », l’IA d’OpenAI sait désormais lire le contenu des images. Et ce, quel que soit leur format, leur taille ou leur complexité. Mais comment fait-elle ?

Comment fait GPT-4 pour être aussi précis et pertinent sur l’analyse d’image ?

Après quelques recherches, et l’aide de ChatGPT pour compléter et reformuler, voici un process simplifié qui pourrait expliquer comment une capacité d’analyse aussi poussée est possible :

  1. Extraction de caractéristiques : identification de patterns et éléments clés dans les images grâce aux réseaux de neurones convolutionnels.
  2. Apprentissage profond : entraînement sur de grandes quantités de données pour reconnaître des patterns complexes.
  3. Analyse sémantique : compréhension du contexte et de la signification des données visuelles, souvent via des réseaux de neurones récurrents ou des Transformers.
  4. Intégration multimodale : Combinaison de l’analyse d’images et de texte pour une compréhension plus riche.
  5. Rétroaction et amélioration continue : amélioration des modèles grâce à la rétroaction et à l’apprentissage supervisé ou non supervisé.
  6. Interprétation et explication : génération d’explications compréhensibles basées sur l’analyse effectuée, pour aider les utilisateurs à comprendre les données visuelles.

Si cela vous intéresse, je vous conseille cet article Linkedin (en anglais) pour explorer le sujet.

Comme vous pouvez le voir sur l’image ci-dessous, ChatGPT est capable d’identifier les informations contenues dans une image avec précision. Et ce, même si certains de ses composants peuvent le mettre sur la mauvaise voie. Ici, le titre (« Street Names ») envoie sur une fausse piste par rapport au reste de l’image.

Puissance de chatgpt dans l'analyse d'images

Quelques exemples d’utilisation de « ChatGPT Vision » dans votre quotidien professionnel

La reconnaissance d’image par l’IA ouvre la voie à une myriade de possibilités. Voici quelques exemples d’usages qui pourraient vous inspirer pour intégrer cette révolution dans votre quotidien professionnel.

Rechercher de l’information

Commençons par le fondement qui fait ce pourquoi nous ne pouvons plus nous passer de ChatGPT et consorts en 2023, et de Google avant lui : la recherche d’informations.

ChatGPT est déjà capable d’analyser le contenu d’un PDF à travers des plugins tels que AskYourPDF, ou d’une simple URL via la recherche Bing intégrée (avec plus ou moins de réussite, certes…). Désormais, le moindre document sous votre main peut être scruté, découpé et reformulé par l’outil.

Voilà un exemple avec le dos d’une boîte de feutres, objet pris au hasard sur mon bureau, et doté d’un pavé de texte conséquent.

photo du texte au dos d'une boîte de feutre, soumis à chat gpt pour analyse

Améliorer un deck de slide

Voilà une utilisation très pratique que j’ai trouvée à cette nouvelle « feature » de ChatGPT. Je l’interpelle comme un expert, et lui fournis un document créé par mes soins (ici, une slide d’une de mes formations), afin qu’il le challenge. Il s’avère très pertinent dans cet exercice.

photo d'une slide powerpoint, soumise à chatgpt pour analyse

Comprendre un schéma technique ou un graphique

Si vous êtes rédacteur, vous avez forcément dû passer par cette étape où vous devez vous approprier un concept avec lequel vous n’êtes pas familier, et si possible rapidement. Et dans ces situations, rien ne vaut un bon schéma. Sauf que parfois, ce n’est pas suffisant.

Avec ChatGPT, vous pouvez désormais obtenir des informations structurées sur le contenu d’un schéma, aussi complexe soit-il. Et ce, quel que soit le niveau de compréhension dont vous avez besoin.

Ainsi, pour ce schéma :

ChatGPT peut lire et analyser les schémas

Je peux autant lui demander de comprendre le concept abordé et de me le résumer trivialement…

image 2

…que de me synthétiser son contenu avec un niveau de rigueur maximal.

image 3

Numériser un texte (notes, pages d’un livre…)

Autre usage simple mais efficace : transformer un écrit manuel en version digitale (et donc entièrement exploitable).

image 7

Bonus : Roaster ses amis

Voici une utilisation originale (et drôle) proposée par un internaute dans un groupe Facebook par ChatGPT. Il demande à l’outil de se moquer gentiment de chacun des membres de la photo. Le prompt est malin, et ça fonctionne !

image 5

Bref, vous l’aurez compris, avec cette fonctionnalité de reconnaissance d’image, les possibilités sont à la hauteur de vos besoins : infinies. Correction ou traduction de textes, analyse comparative, tâches créatives…

💻 💡 Envie de « prompter » ? 💡💻

Découvrez nos 3 articles les plus lus sur ChatGPT :

Dall-E 3 est désormais accessible directement dans ChatGPT

DALL-E, qu’est-ce que c’est ?

DALL-E, développé par OpenAI, est un modèle de génération d’images doté de 12 milliards de paramètres, capable de transformer des descriptions textuelles en images visuelles. Il est une extension naturelle du modèle GPT-3, mais génère des images plutôt que du texte en réponse à des prompts textuels.

DALL-E 2 a marqué une étape importante en élargissant les capacités créatives du modèle, permettant la création d’images originales et réalistes à partir de descriptions textuelles. DALL-E 3 a ensuite été introduit avec des améliorations notables en matière de sécurité, notamment la capacité de refuser des requêtes demandant de générer des images de personnalités publiques. Cette version gère « significativement plus de nuances et de détails » par rapport à la version précédente, suggérant une amélioration de la qualité et de la précision des images générées.

Plus de 4 millions d’images sont générées chaque jour grâce à DALL-E, témoignant de son utilité et de sa popularité croissantes dans la communauté des créatifs.

Depuis quand Dall-E 3 est disponible dans ChatGPT ?

DALL·E 3 a d’abord été uniquement accessible à une frange d’utilisateurs à partir du 20 août 2023, pour des travaux de recherche. Il a été rendu disponible aux clients ChatGPT Plus et Enterprise en octobre de cette année, sans précision exacte sur la date de déploiement. Si vous êtes client de l’offre payante de ChatGPT, vous pouvez donc y avoir accès.

Plus puissant, plus précis : le test de DALL·E 3 pour la génération d’images

C’est parti, mettons DALL·E 3 à l’épreuve avec un prompt bien ardu, qui intègre les éléments suivants :

  • Complexité du sujet : juxtaposition d’un astronaute, d’un dragon, d’une ville et de détails en arrière-plan.
  • Haute résolution : rendu en 4K.
  • Simulation de prise de vue : imitation d’une prise avec un appareil photo Hasselblad vintage.
  • Gestion de la lumière : éclairage simulant le soleil couchant.
  • Précision des couleurs : écailles bleu turquoise pour le dragon.
  • Gestion de détails stylistiques en provenance du réel : combinaison spatiale de type SpaceX et planète Jupiter à l’arrière-plan
  • Gestion des emplacements : écusson avec logo chaton sur la manche droite.
  • Interactions lumineuses : reflets des néons sur surfaces variées.

Voici le prompt final :

Rendu photoréaliste 4K, capturé avec un appareil photo vintage Hasselblad, avec un éclairage simulant l’éclairage typique du soleil couchant. Un astronaute, vêtu d’une combinaison spatiale similaire à la « SpaceX spacesuit » et qui arbore un écusson très visible avec un chaton dessus sur la manche droite. Il joue du violoncelle sur le dos d’un dragon endormi. Le dragon possède des écailles bleu turquoise. Ils flottent au-dessus d’une ville néon futuriste. La planète Jupiter apparaît à l’arrière-plan. Les néons de la ville créent des reflets chatoyants sur les écailles du dragon et la combinaison de l’astronaute.

Et voici la meilleure image proposée par Dall E.

Génération d'image : exemple bluffant produit par Dall E 3 directement dans ChatGPT

Le rendu est très satisfaisant, même si toutes les indications ne parviennent pas à être respectées (n’est-ce pas petit chat ?). J’ai pourtant essayé de modifier certains aspects du prompt (donner encore plus d’indications de choses qui doivent apparaître ou justement, ne pas apparaître), mais en vain. Le rendu tourne toujours autour de ce résultat.

Peut-on générer des images marketing avec DALL E 3 ?

Le modèle est donc assez impressionnant de précision. Alors, est-il possible de l’utiliser à des fins autres qu’artistiques ? Essayons avec un prompt relativement simple, pour créer la web banner d’un article web.

1024×768 px, rendu en haute résolution, illustrant un vélo électrique moderne et élégant de 2023, sur un fond RAL 7047 subtilement dégradé. Le vélo doit être présenté de profil, montrant clairement ses caractéristiques de pointe comme un écran intégré, et une batterie discrète.

Ça fonctionne !

Dall E 3 - vélo électrique

En conclusion

Génération de texte, gestion de plugins, recherche web, et désormais reconnaissance et génération d’images intégrées… Pour 20 dollars/mois, vous avez désormais accès à l’outil marketing le plus puissant du marché avec ChatGPT Plus. Si vous recherchez une solution qui vous permet de travailler sur la génération d’images en équipe, OpenAI a récemment lancé son offre « Team », qui propose toutes les meilleures fonctionnalité de la version payante, et une interface de gestion des comptes intégrée.

D’un point de vue plus global, on peut imaginer voir apparaître ces outils de compréhension d’images à des fins marketing pour mieux profiler les besoins des utilisateurs. Par exemple, on pourrait imaginer la possibilité d’uploader la photo de son vêtement préféré sur un site e-commerce, afin que l’IA propose un article similaire présent dans l’offre du site.

Reste à savoir si l’idée d’un monde où la machine connaît mieux nos désirs que nous-mêmes nous apparaît comme désirable…!

Arnaud Anselmet - Conseils Rédaction Web

Écrit par : Arnaud

Je suis spécialiste en création de contenus web, et fondateur de Conseils Rédaction Web. Je vous partage mes trouvailles en tant que professionnel de la rédaction web, et j'essaie au maximum de les soutenir avec de la data. J'ai un passé littéraire, mais finalement, j'aime les chiffres autant que les lettres ! Mon seul but à travers ce blog : rédiger des articles qui vous permettent de mieux comprendre les procédés de création de contenu et le SEO.
Arnaud Anselmet - Conseils Rédaction Web

Écrit par Arnaud

Je suis spécialiste en création de contenus web, et fondateur de Conseils Rédaction Web. Je vous partage mes trouvailles en tant que professionnel de la rédaction web, et j'essaie au maximum de les soutenir avec de la data. J'ai un passé littéraire, mais finalement, j'aime les chiffres autant que les lettres ! Mon seul but à travers ce blog : rédiger des articles qui vous permettent de mieux comprendre les procédés de création de contenu et le SEO.
formation SEO et rédaction web
Formation SEO proposée par Conseils Rédaction Web et le CFPJ
Actus ChatGPT
Retrouvez les dernières actualités sur l'IA générative et ChatGPT
Les meilleurs prompts CHATGPT pour vos emailings
quiz seo
Testez vos connaissances en SEO

D’autres articles intéressants :

1 Commentaire

  1. Chatgptdeutsch

    L’intégration de l’analyse d’images et de la génération d’images dans ChatGPT constitue une avancée significative dans les capacités de l’IA. Ces fonctionnalités ouvrent de nombreuses possibilités, de l’amélioration de la création de contenu aux applications marketing. Cependant, les considérations éthiques et de confidentialité liées à la compréhension de l’IA et à la génération de contenu visuel sont des aspects importants à prendre en compte à mesure que l’IA continue de progresser dans cette direction.

    Réponse

Trackbacks/Pingbacks

  1. Stories : le plugin ChatGPT pour créer des histoires en 15 secondes ! | Conseils Rédaction Web - […] utilisant ce plugin, vous remarquerez que les images générées pour illustrer chaque page de votre histoire appartiennent toujours au…
  2. Copywriting ChatGPT : test sur une page de vente | Conseils Rédaction Web - […] d’octobre 2023 : la génération d’image via DALL-E est désormais possible directement dans ChatGPT pour les utilisateurs […]
  3. ChatGPT Team d'OpenAI : quelles fonctionnalités, quels avantages ? | Conseils Rédaction Web - […] 3 pour la génération d’images […]
  4. Prompt Perfect, le plugin ChatGPT pour optimiser vos prompts | Conseils Rédaction Web - […] d’images. Fonctionnalité qui s’avère particulièrement utile maintenant que la génération d’image est directement disponible dans ChatGPT via Dall-E […]

Soumettre un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *