Le dernier modèle d'image IA "Banana" de Google rend les internautes fous avec le "Vibe Photoshoping"
Google AI Studio a lancé Gemini 2.5 Flash Image (nom de code nano-banana), le modèle de génération et d’édition d’images le plus avancé de Google, qui se distingue par sa rapidité et ses excellentes performances sur de nombreux classements. Résumé généré par Mars AI Ce résumé a été généré par le modèle Mars AI, dont la précision et l’exhaustivité du contenu sont encore en phase d’amélioration.
Vous souvenez-vous du mystérieux modèle d’édition d’images AI « nano-banana » qui a fait couler tant d’encre ? À l’époque, sur l’arène LMArena des grands modèles de langage, il avait suscité un vif débat grâce à ses performances exceptionnelles. Les experts techniques de Google Gemini se sont succédé sur les réseaux sociaux, attisant la curiosité de tous, au point d’être un temps considéré comme le légendaire Gemini 3.0 Pro.
Aujourd’hui, Google a enfin levé le voile sur ce mystère.
Le 27 août à l’aube (GMT+8), Google AI Studio a officiellement lancé Gemini 2.5 Flash Image (nom de code nano banana) 🍌.
Après une longue attente, Gemini 2.5 Flash Image fait enfin son apparition | Source : GeekPark
C’est à ce jour le modèle de génération et d’édition d’images le plus avancé de Google : non seulement il est d’une rapidité fulgurante, offrant une expérience quasi « éclair », mais il a aussi décroché des résultats SOTA sur de nombreux classements, et domine largement sur LMArena.
Dès son lancement, Gemini 2.5 Flash Image atteint des capacités SOTA | Source : LMarena.ai
Dans son blog technique, Google explique que Gemini 2.0 Flash avait déjà séduit les développeurs grâce à sa faible latence et son excellent rapport qualité-prix, mais que les utilisateurs attendaient des images de meilleure qualité et un contrôle créatif plus puissant. Gemini 2.5 Flash Image arrive donc avec ces améliorations majeures : la cohérence des personnages est enfin pleinement maintenue, l’édition d’images basée sur des prompts est plus précise, la fusion de plusieurs images est naturelle et fluide, et la compréhension des connaissances du monde réel en fait bien plus qu’un simple modèle – c’est une « origine » qui pose les bases des futures applications à succès.
GeekPark a également pu le tester dès sa sortie. À la surprise générale, ce n’est pas qu’une simple mise à jour de modèle : pour la première fois, on a vraiment l’impression que l’avenir de la retouche photo par IA est à portée de main.
L’expérience est déjà accessible dans Google AI Studio | Source : GeekPark
Au début, je voulais simplement tester ce nouveau modèle pour voir « où il est plus rapide ». Mais en quelques heures d’utilisation, j’ai eu l’impression d’entrevoir à l’avance à quoi ressemblera la prochaine génération d’applications à succès.
Jusqu’ici, nous étions habitués à des outils comme Meitu Xiuxiu : quelques clics, un filtre, et la photo devient plus belle. Mais Gemini 2.5 Flash Image offre une sensation totalement différente. Il est incroyablement rapide, intelligent comme un designer qui comprend vos envies : il suffit de décrire l’effet souhaité, et il le réalise en quelques secondes.
Outre la qualité, la vitesse est un autre point fort de Gemini 2.5 Flash Image, qui se démarque nettement des précédents modèles de génération d’images | Source : GeekPark
01 Génération ultra-rapide, résultat en quelques secondes
Ce qui frappe le plus avec nano banana, c’est la vitesse. Avec les anciens modèles open source, même avec un ordinateur performant, il fallait attendre plusieurs dizaines de secondes, voire plus, entre le prompt et l’image générée. Pour les utilisateurs mobiles, cette attente était encore plus pénible.
Mais Gemini 2.5 Flash Image abaisse ce seuil à quelques secondes à peine. Google le présente comme son « modèle natif multimodal le plus récent, le plus rapide et le plus efficace », et l’optimisation est évidente. Lors de mes tests, il suffisait de trois ou quatre secondes pour générer une image à partir d’un prompt, avec une résolution et des détails très nets. (UTC+8)
L’expérience rappelle celle de Meitu Xiuxiu : un clic sur « embellir » et l’effet est quasi instantané. Mais la différence, c’est que Meitu Xiuxiu applique des filtres algorithmiques, tandis que Gemini 2.5 Flash Image construit une image à partir de zéro ou transforme radicalement une photo selon vos besoins. Ce plaisir de « viser et obtenir » est inimaginable avec les processus de retouche fastidieux d’autrefois.
Pour des demandes comme « supprimer les passants en arrière-plan », un simple prompt suffit | Source : GeekPark
Si la vitesse améliore l’expérience utilisateur traditionnelle de retouche, la « multimodalité native » repousse les limites des capacités d’images AI.
Gemini 2.5 Flash Image ne se contente pas de générer des images : il comprend aussi bien le texte que les entrées visuelles. Cela signifie que je peux lui fournir une photo et un prompt textuel, et il combinera les deux pour comprendre ce que je veux vraiment.
Par exemple, j’ai téléchargé une photo prise dans la rue, puis demandé « change l’arrière-plan pour une scène nocturne à Shinjuku, Tokyo ». Non seulement il a identifié le sujet de la photo, mais il a aussi parfaitement détouré la personne et remplacé l’arrière-plan par les néons de Shinjuku. Mieux encore, il a conservé la cohérence des lumières et des ombres, sans l’effet « collage grossier » souvent inévitable avec un détourage manuel.
Cette capacité de compréhension me rappelle une fonction souvent vantée ces dernières années dans les galeries photo des smartphones : « changer l’arrière-plan en un clic ». Mais à l’époque, les contours étaient flous, la lumière mal ajustée, le résultat peu crédible. Désormais, Gemini 2.5 Flash Image utilise ses connaissances du monde et sa compréhension visuelle pour peaufiner ces détails, offrant un rendu bien plus naturel et précis que les outils traditionnels de génération d’images à partir de texte ou d’image.
Image originale & résultat généré par Gemini 2.5 Flash Image | Source : GeekPark
C’est pourquoi je pense qu’il va redéfinir l’expérience de retouche : fini les ajustements manuels fastidieux, place à la compréhension sémantique naturelle du modèle pour accomplir des tâches complexes, notamment dans les portraits où le souci du détail est crucial.
Pour ce type de traitement de portraits, la cohérence des personnages offerte par Gemini 2.5 Flash Image procure une expérience de « Vibe Photoshoping » inédite.
En une seconde, il redonne de la dignité au programmeur | Source : GeekPark
Cette expérience brise l’image mystique que beaucoup avaient de la génération d’images par IA : « ésotérique » – un prompt bien rédigé donne un résultat bluffant, un prompt moyen donne un résultat à côté de la plaque.
Mais avec Gemini 2.5 Flash Image, cette « impression d’ésotérisme » est bien atténuée. Sa compréhension des prompts est plus précise et plus intuitive pour l’utilisateur – c’est pourquoi beaucoup le trouvent soudainement bien plus facile à utiliser.
Par exemple, si je lui dis « floute l’arrière-plan, mets en valeur le personnage au premier plan », l’image générée en quelques secondes correspond exactement à ce que je voulais ; si je lui demande « fais sourire la personne sur la photo », non seulement la bouche s’étire, mais même le regard change, avec un souci du détail remarquable ; j’ai même essayé « colorise cette photo en noir et blanc », et le résultat n’est pas un coloriage aléatoire, mais une restitution fidèle de l’ambiance colorée de l’époque.
Cette capacité à « faire ce qu’on dit » me rappelle l’époque où, avec Meitu Xiuxiu, je voulais juste lisser la peau et me retrouvais avec un visage artificiel « beauté niveau 10 ». Désormais, les opérations de Gemini 2.5 Flash Image sont précises et mesurées : il comprend vraiment ce que vous voulez, puis s’efforce de le restituer fidèlement.
02 Des capacités renforcées, difficile de revenir en arrière
Pour être plus concret, je l’ai comparé à mes outils de retouche mobiles habituels.
Sur Snapseed, pour flouter l’arrière-plan, il faut généralement une à deux minutes pour sélectionner manuellement la zone de premier plan, puis ajuster le flou. Même avec de l’expérience, les retouches sont inévitables.
Sur Meitu Xiuxiu, il existe une fonction de flou d’arrière-plan en un clic, mais elle floute souvent aussi les contours du personnage, pour un résultat peu naturel.
Avec Gemini 2.5 Flash Image, une simple phrase suffit : il détecte automatiquement les frontières entre le personnage et l’arrière-plan, le flou est naturel, sans retouche supplémentaire.
Cette comparaison montre une chose : Gemini 2.5 Flash Image libère l’utilisateur des manipulations complexes et confie davantage de travail au modèle. Pour le grand public, il abaisse le seuil de la retouche ; pour les professionnels, il fait gagner un temps précieux.
Après l’avoir testé, mon impression principale est que Gemini 2.5 Flash Image n’est plus seulement un outil de retouche, mais se rapproche d’un « assistant intelligent ».
Avant, avec Meitu Xiuxiu, on utilisait une collection de fonctions prédéfinies : filtres, embellissement, mosaïque, chaque bouton correspondait à une fonction. Il fallait choisir, ajuster, jusqu’à être satisfait.
Aujourd’hui, la logique de Gemini 2.5 Flash Image est totalement différente. Il ne vous demande plus d’apprendre à utiliser l’outil, il comprend directement vos besoins. Il suffit de les exprimer, il s’occupe du reste.
Ce changement, en apparence subtil, bouleverse en réalité la relation au processus de retouche. Avant, nous nous adaptions à l’outil ; désormais, c’est l’outil qui s’adapte à nous. Cette forme d’interaction est déjà l’ébauche de la prochaine génération d’applications.
À ce stade, Gemini 2.5 Flash Image en est encore à ses débuts, avec des limites fonctionnelles. Mais sa vitesse, sa compréhension et sa fidélité laissent entrevoir un avenir prometteur.
Et si on le combinait à Meitu Xiuxiu ? Peut-être qu’on ouvrirait l’application, on dirait « retouche cette photo, rends la peau plus naturelle », et le résultat apparaîtrait en quelques secondes (UTC+8) ; ou bien, lors d’un voyage, on demanderait « change le temps en ensoleillé », et la photo deviendrait instantanément lumineuse ; voire, en montage vidéo, une phrase suffirait à changer l’ambiance d’un clip entier.
Ce mode pourrait rapidement devenir la fonction d’édition d’images phare des systèmes d’exploitation mobiles | Source : Twitter
Voilà pourquoi je pense qu’il va révolutionner les processus actuels des outils de retouche, et définir la prochaine génération de « Meitu Xiuxiu » : il ne s’agit plus seulement de retoucher, mais de repenser l’interaction avec le traitement d’images, en faisant de l’IA votre partenaire de post-production photo.
Mais pour l’instant, Gemini 2.5 Flash Image ne peut pas encore servir d’application de retouche grand public prête à l’emploi : non seulement parce que son objectif principal reste la génération d’images plutôt que la retouche fine, mais aussi parce que toutes les images créées ou éditées via Gemini 2.5 Flash Image portent un filigrane numérique SynthID, permettant aux plateformes sociales d’identifier le contenu généré par l’IA.
03 Le point de départ d’un futur best-seller
Rétrospectivement, si Meitu Xiuxiu est devenu une application universelle, c’est parce qu’il a résolu, de la façon la plus simple, un problème que tout le monde voulait résoudre : rendre les photos plus belles.
Gemini 2.5 Flash Image va plus loin, en affinant la puissance de l’IA pour offrir à tous une expérience de génération d’images « en une seconde ».
La première fois que je lui ai dit « floute un peu l’arrière-plan », et que l’image a été naturellement traitée en quelques secondes, j’ai su : c’est le point de départ d’une application à succès. Ce n’est pas qu’un modèle, c’est la capacité sous-jacente de nombreux futurs produits.
La fonction AI de changement de ciel en un clic, très populaire chez les utilisateurs de smartphones ces dernières années | Source : communauté vivo
Peut-être qu’un jour, nous oublierons le nom de code Banana, mais nous verrons de plus en plus d’outils de traitement d’images permettant de « dire ce que l’on veut et l’obtenir instantanément », qui, comme Meitu Xiuxiu à son époque, deviendront un souvenir commun à toute une génération d’utilisateurs.
Mais cette fois, l’IA poussera l’imagination encore plus loin.
Avertissement : le contenu de cet article reflète uniquement le point de vue de l'auteur et ne représente en aucun cas la plateforme. Cet article n'est pas destiné à servir de référence pour prendre des décisions d'investissement.
Vous pourriez également aimer
Waller, le principal candidat à la présidence de la Fed : Ethereum et les stablecoins représentent la prochaine étape du développement des paiements, les institutions devraient les adopter.
Le principal candidat potentiel à la présidence de la Réserve fédérale, Waller, a publiquement exprimé son optimisme à l'égard des actifs numériques, en particulier Ethereum et les stablecoins, et a exhorté les institutions financières à accepter les cryptomonnaies comme la prochaine étape naturelle du développement des paiements.

En vogue
PlusWaller, le principal candidat à la présidence de la Fed : Ethereum et les stablecoins représentent la prochaine étape du développement des paiements, les institutions devraient les adopter.
Le rapport sur l'emploi non agricole de septembre sera-t-il à nouveau fortement révisé à la baisse, ouvrant ainsi la porte à une baisse de taux de 50 points de base ?
Prix des cryptos
Plus








