El nuevo modelo de imágenes AI "Banana" de Google enloquece a los usuarios con "Vibe Photoshoping"

Bitget App

Opera de forma inteligente

Bitget

Novedades

MarsBit2025/08/30 06:53

Mostrar el original

Por:TechFlow

Google AI Studio ha lanzado Gemini 2.5 Flash Image (nombre en clave nano-banana), el modelo de generación y edición de imágenes más avanzado de Google, que destaca por su rapidez y excelente desempeño en múltiples rankings. Resumen generado por Mars AI Este resumen ha sido generado por el modelo Mars AI, cuya precisión y exhaustividad del contenido aún se encuentra en fase de mejora continua.

¿Recuerdas el misterioso modelo de edición de imágenes AI "nano-banana" que fue tema candente de discusión anteriormente? En ese momento, en la arena de modelos de lenguaje LMArena, se discutió ampliamente gracias a su destacado desempeño. Los expertos técnicos de Google Gemini también se turnaron para generar expectación en las redes sociales, incluso llegando a ser considerado como el rumorado Gemini 3.0 Pro.

Ahora, Google finalmente ha revelado su misterio.

En la madrugada del 27 de agosto (zona horaria UTC+8), Google AI Studio lanzó oficialmente Gemini 2.5 Flash Image (nombre en clave nano banana) 🍌.

Gemini 2.5 Flash Image, que estuvo en pre-lanzamiento durante mucho tiempo, finalmente hace su aparición | Fuente de la imagen: GeekPark

Este es hasta ahora el modelo más avanzado de generación y edición de imágenes de Google, no solo es increíblemente rápido, brindando una experiencia casi "relámpago", sino que también ha logrado resultados SOTA en múltiples rankings, y se mantiene muy por delante en LMArena.

Gemini 2.5 Flash Image alcanza capacidades SOTA desde su lanzamiento | Fuente de la imagen: LMarena.ai

En su blog técnico, Google menciona que Gemini 2.0 Flash ya había ganado la preferencia de los desarrolladores gracias a su baja latencia y alta rentabilidad, pero los usuarios siempre esperaron imágenes de mayor calidad y un control creativo más potente. Gemini 2.5 Flash Image llega precisamente con estas mejoras importantes: la consistencia de los personajes finalmente se mantiene plenamente, la edición de imágenes basada en prompts es más precisa, la fusión de múltiples imágenes es natural y fluida, y su comprensión del conocimiento del mundo real lo convierte no solo en un modelo, sino en el "punto de partida" para la próxima generación de aplicaciones exitosas.

GeekPark también lo probó de inmediato. Sorprendentemente, esto no es solo una actualización de modelo, sino que por primera vez se siente que el futuro de la edición de imágenes con AI está a la vuelta de la esquina.

Actualmente ya está disponible para probar en Google AI Studio | Fuente de la imagen: GeekPark

Al principio, solo tenía la intención de experimentar de manera convencional, "ver en qué es más rápido el nuevo modelo". Pero para mi sorpresa, unas pocas horas de experiencia me permitieron vislumbrar cómo serán las próximas aplicaciones exitosas.

En el pasado, estábamos acostumbrados a herramientas como MeituPic, donde con solo unos clics y un filtro, la foto se volvía más atractiva rápidamente. Pero Gemini 2.5 Flash Image ofrece una sensación completamente diferente. Es increíblemente rápido, inteligente como un diseñador que entiende tus deseos; solo tienes que decirle el efecto que quieres y en segundos lo presenta en pantalla.

Además del efecto, la velocidad es otra experiencia claramente diferente de Gemini 2.5 Flash Image respecto a los productos de modelos anteriores | Fuente de la imagen: GeekPark

01 Generación ultrarrápida, resultados en segundos

Lo más intuitivo de la experiencia nano banana es la velocidad. Antes, al usar algunos modelos open source, incluso con una buena configuración de computadora, desde el prompt hasta la generación de una imagen decente podían pasar decenas de segundos o incluso más. Para los usuarios móviles, esta espera era aún más desesperante.

Pero Gemini 2.5 Flash Image reduce esta barrera a solo unos segundos. Es el modelo multimodal nativo "más nuevo, más rápido y más eficiente" según Google, y claramente han trabajado mucho en su optimización. En mis pruebas, tras ingresar un prompt, en unos tres o cuatro segundos ya tenía el resultado, con resolución y detalles bastante claros. (UTC+8)

Esta experiencia es similar a cuando usamos MeituPic para editar fotos: al presionar el botón de "embellecer", el efecto es casi instantáneo. La diferencia es que MeituPic aplica un filtro mediante un algoritmo, mientras que Gemini 2.5 Flash Image construye una imagen desde cero o transforma una foto según tus necesidades. Esta sensación de "apuntar y disparar" es algo que los tediosos procesos de edición tradicionales no pueden igualar.

Necesidades como "eliminar personas del fondo" se resuelven con solo un prompt | Fuente de la imagen: GeekPark

Si la velocidad resuelve la experiencia de usuario tradicional de edición, la "multimodalidad nativa" amplía los límites de la capacidad de imágenes AI.

Gemini 2.5 Flash Image no solo puede generar imágenes, sino que también entiende entradas de texto e imagen al mismo tiempo. Esto significa que puedo darle una foto y un prompt textual, y combinará ambas informaciones para entender exactamente lo que quiero.

Por ejemplo, subí una foto tomada en la calle y le pedí "cambia el fondo por el paisaje nocturno de Shinjuku, Tokio". No solo identificó el sujeto de la foto, sino que lo recortó con precisión y reemplazó el fondo por las luces de neón de Shinjuku. Lo más impresionante es que mantuvo la coherencia de la luz y la sombra del personaje, sin ese efecto artificial que suele ocurrir al recortar manualmente.

Esta capacidad me recuerda a una función que los fabricantes de móviles han promocionado en los últimos años en sus galerías: "cambiar el fondo con un solo clic". Pero la diferencia es que antes los bordes quedaban borrosos y la luz no coincidía, el resultado era poco realista. Ahora, Gemini 2.5 Flash Image utiliza conocimiento del mundo y comprensión visual para mejorar estos detalles, logrando resultados mucho más naturales y conservando detalles de imagen mucho más precisos que las herramientas tradicionales de text-to-image o image-to-image.

Imagen original & resultado generado por Gemini 2.5 Flash Image | Fuente de la imagen: GeekPark

Por eso creo que redefinirá la experiencia de edición: ya no dependerá de muchos ajustes manuales, sino que el modelo, gracias a su comprensión semántica natural, realizará tareas de forma eficiente, por ejemplo en la edición de retratos donde los detalles son cruciales.

Para este tipo de necesidades de edición de retratos, la consistencia de personajes de Gemini 2.5 Flash Image realmente ofrece una experiencia de "Vibe Photoshoping" sin precedentes.

Ayuda a los programadores a "salvar la dignidad" en un segundo | Fuente de la imagen: GeekPark

Esta experiencia rompe con la impresión que muchos tenían de la generación de imágenes AI: "esotérica": si el prompt es bueno, el resultado es sorprendente; si es regular, el resultado puede ser totalmente inesperado.

Pero en Gemini 2.5 Flash Image, noté que esta "sensación esotérica" se ha reducido mucho. Su comprensión de los prompts es más precisa y se ajusta mejor a la intuición del usuario, por eso muchos sienten que es mucho más útil.

Por ejemplo, le digo "difumina el fondo y resalta el personaje en primer plano", y en segundos la imagen es exactamente como la quería; le pido "cambia la expresión de la persona en la foto por una sonrisa", y no solo levanta la comisura de los labios, sino que también ajusta la mirada, con detalles muy precisos; incluso probé "colorea una foto en blanco y negro", y el resultado no fue un manchado aleatorio, sino que intentó acercarse lo más posible a la atmósfera cromática de la foto histórica.

Esta capacidad de "decir y hacer" me recuerda a cuando usaba MeituPic: solo quería suavizar la piel, pero terminaba con una cara artificial de "belleza nivel 10". Ahora, las operaciones de Gemini 2.5 Flash Image son precisas y moderadas, realmente entiende lo que quieres y trata de reproducirlo fielmente.

02 Capacidades mejoradas, difícil volver atrás

Para ser más directo, lo comparé con las herramientas de edición móvil que uso habitualmente.

En Snapseed, si quiero difuminar el fondo, normalmente tengo que seleccionar manualmente el área del primer plano durante uno o dos minutos y luego ajustar el grado de desenfoque. Incluso siendo hábil, es inevitable tener que corregir varias veces.

En MeituPic, aunque hay una función de desenfoque de fondo con un solo clic, a menudo difumina también los bordes del personaje, el resultado no es natural.

Pero en Gemini 2.5 Flash Image, solo necesito una frase, identifica automáticamente los límites entre el personaje y el fondo, el desenfoque es natural y no requiere retoques adicionales.

Esta comparación demuestra una cosa: Gemini 2.5 Flash Image libera al usuario de operaciones complejas y delega más trabajo al modelo. Para la gente común, reduce la barrera de entrada a la edición; para los profesionales, ahorra mucho tiempo.

Después de probarlo, mi mayor sensación es que Gemini 2.5 Flash Image ya no es solo una herramienta de edición, sino más bien un "asistente inteligente".

Antes, al usar MeituPic, utilizábamos un conjunto de funciones preestablecidas: filtros, embellecimiento, mosaico, cada botón correspondía a una función. Solo tenías que ir eligiendo y ajustando paso a paso hasta quedar satisfecho.

Ahora, la lógica de Gemini 2.5 Flash Image es completamente diferente. Ya no requiere que aprendas la lógica de la herramienta, sino que entiende directamente tus necesidades. Solo tienes que decirlo y él lo hace por ti.

Este cambio parece sutil, pero en realidad transforma por completo la relación en el proceso de edición. Antes nos adaptábamos a la herramienta, ahora la herramienta se adapta a nosotros. Esta forma de interacción es en sí misma el prototipo de la próxima generación de aplicaciones.

Por ahora, Gemini 2.5 Flash Image aún está en una etapa temprana y puede tener limitaciones funcionales. Pero la velocidad, comprensión y fidelidad que muestra ya son suficientes para imaginar el futuro.

¿Qué pasaría si se combinara con MeituPic? Tal vez abras la app, le digas al móvil "ayúdame a retocar esta foto, haz que la piel se vea más natural", y en segundos tienes el resultado (UTC+8); o cuando tomas fotos de viaje, le dices "cambia el clima a soleado", y la foto se vuelve soleada al instante; incluso en edición de video, podrías cambiar el ambiente de un clip con solo una frase.

Este método podría convertirse rápidamente en la función principal de edición de imágenes en los sistemas operativos móviles en el futuro | Fuente de la imagen: Twitter

Por eso creo que revolucionará rápidamente los flujos de trabajo actuales de las herramientas de edición, definiendo la próxima generación de "MeituPic": no solo edición, sino una nueva forma de interacción en el procesamiento de imágenes, haciendo que la AI sea tu compañero en la postproducción fotográfica.

Pero por ahora, Gemini 2.5 Flash Image aún no puede ser una app de edición masiva lista para usar: no solo porque su objetivo principal sigue siendo la generación de imágenes y no el ajuste sobre la base existente, sino también porque todas las imágenes creadas o editadas con Gemini 2.5 Flash Image llevan una marca de agua digital SynthID, para que las plataformas sociales identifiquen el contenido generado por AI.

03 El punto de explosión de una killer app

Pensándolo bien, la razón por la que MeituPic se convirtió en una app para todos fue porque resolvió de la manera más sencilla el problema que todos querían resolver: hacer que las fotos se vean mejor.

Y Gemini 2.5 Flash Image, sobre esa base, lleva las capacidades AI complejas a una experiencia de "imagen en segundos" que cualquiera puede usar.

La primera vez que le dije "difumina el fondo" y en segundos la imagen estaba perfectamente editada, supe claramente: este es el punto de explosión de una killer app. No es solo un modelo, sino la capacidad subyacente de innumerables productos futuros.

La función AI de cambiar el cielo con un solo clic que fue viral entre los usuarios de móviles hace unos años | Fuente de la imagen: comunidad vivo

Quizás dentro de unos años olvidemos el nombre en clave Banana, pero veremos cada vez más herramientas de edición de imágenes que te permiten "decir lo que quieres y se hace al instante", y tal vez, como MeituPic en su día, se conviertan en un recuerdo compartido de toda una generación de usuarios.

Solo que esta vez, la AI llevará la imaginación aún más lejos.

Descargo de responsabilidad: El contenido de este artículo refleja únicamente la opinión del autor y no representa en modo alguno a la plataforma. Este artículo no se pretende servir de referencia para tomar decisiones de inversión.

PoolX: Haz staking y gana nuevos tokens.

APR de hasta 12%. Gana más airdrop bloqueando más.

¡Bloquea ahora!

También te puede gustar

Perspectiva semanal de la economía global: antes de la reunión de la Reserva Federal, se espera que el crecimiento del empleo en Estados Unidos se modere.

新浪财经•2025/08/30 22:23

Rolls-Royce niega los informes sobre una posible salida a bolsa de su división de pequeños reactores nucleares

新浪财经•2025/08/30 22:23

Un juez estadounidense detiene la política de deportación rápida de Trump

新浪财经•2025/08/30 22:23

El gigante de pagos digitales Klarna lanzará su IPO en la bolsa estadounidense, liderando la ola de salidas a bolsa "explosivas" previstas para septiembre.

老虎证券•2025/08/30 21:07

En tendencia

Más

La Unión Europea planea utilizar los activos rusos congelados para ayudar a Ucrania después del fin del conflicto.

Perspectiva semanal de la economía global: antes de la reunión de la Reserva Federal, se espera que el crecimiento del empleo en Estados Unidos se modere.