OpenAI lance gpt-image-2, le premier modèle de génération d'images capable de raisonner avant de créer qui redéfinit les standards de l'IA visuelle.
Par Jérémy Collovray

Pas encore de commentaire. Lancez la discussion !
OpenAI a dévoilé ChatGPT Images 2.0. En moins de douze heures, il s'est hissé à la première place du test Image Arena, le classement de référence de la génération d'images par IA où des humains votent à l'aveugle pour la meilleure génération. Derrière ce score, il y a une rupture technique que l'industrie n'avait pas vue venir : pour la première fois, un modèle de génération d'images est capable de raisonner avant de produire un visuel.
La grande nouveauté et ne se voit pas au premier coup d'oeil. Elle se joue en coulisses, dans ce qu'OpenAI appelle le Thinking Mode. Avant de générer une image, le modèle peut désormais effectuer des recherches sur le web, planifier la composition de son visuel, puis vérifier lui-même le résultat. Concrètement, si vous lui demandez un menu de restaurant bilingue avec des prix exacts, il ne se contente plus de deviner : il raisonne sur la mise en page, place chaque élément au bon endroit, et produit un document prêt à imprimer. C'est la première fois qu'un modèle d'image intègre nativement les capacités de raisonnement, et cela change tout dans la manière dont l'IA aborde la création visuelle.
Tout utilisateur de DALL-E ou de Midjourney connaît ce problème : demandez à l'IA d'écrire du texte dans une image et vous obtenez un charabia approximatif, des lettres inversées, des mots inventés. Avec gpt-image-2, ce problème appartient largement au passé. Le modèle atteint une précision de rendu textuel sans précédent, y compris dans les langues non latines comme le japonais, le coréen ou l'hindi. Lors de la démonstration, OpenAI a montré un bol de riz dans lequel un seul grain portait le nom du modèle inscrit dessus, parfaitement lisible. Le modèle peut aussi générer jusqu'à huit images cohérentes en une seule requête, avec des personnages et des objets qui restent visuellement consistants d'une image à l'autre, ouvrant la porte à la création de mangas ou de storyboards complets.
Faut-il pour autant crier au miracle ? Certains observateurs rappellent que le modèle reste imparfait. Des tests précoces ont révélé une carte du monde générée avec des pays fictifs et des capitales mal placées. La latence du Thinking Mode, entre 15 et 30 secondes par image freine les usages en temps réel. Et le spectre du AI slop, cette production massive de contenu visuel générique et médiocre, inquiète toujours les créatifs. OpenAI a comparé cette avancée au passage des peintures rupestres à la Renaissance, une métaphore que les critiques ont accueillie avec une ironie mordante. Reste que, malgré les réserves, gpt-image-2 redéfinit ce qu'un modèle de génération d'images peut accomplir. En introduisant le raisonnement dans la création visuelle, OpenAI invente une nouvelle catégorie d'outil, à mi-chemin entre le designer et l'assistant intelligent.