O mais recente modelo de imagem de IA "Banana" do Google faz internautas enlouquecerem com "Vibe Photoshoping"

Bitget App

Trade smarter

Bitget

Notícias

MarsBit2025/08/30 06:53

Mostrar original

Por:TechFlow

O Google AI Studio lançou o Gemini 2.5 Flash Image (codinome nano-banana), o modelo mais avançado do Google para geração e edição de imagens, que apresenta alta velocidade e excelente desempenho em vários rankings. Resumo gerado pela Mars AI Este resumo foi gerado pelo modelo Mars AI, cuja precisão e integridade do conteúdo ainda estão em fase de atualização iterativa.

Você se lembra do misterioso modelo de edição de imagens por IA "nano-banana" que foi amplamente discutido anteriormente? Na época, na LMArena, a arena de grandes modelos de linguagem, ele foi tema de debates acalorados graças ao seu desempenho excepcional. Os especialistas técnicos do Google Gemini também participaram, alimentando a curiosidade nas redes sociais, chegando até mesmo a ser considerado o suposto Gemini 3.0 Pro.

Agora, o Google finalmente revelou seu segredo.

Na madrugada de 27 de agosto (GMT+8), o Google AI Studio lançou oficialmente o Gemini 2.5 Flash Image (codinome nano banana) 🍌.

O tão aguardado Gemini 2.5 Flash Image finalmente chega | Fonte da imagem: GeekPark

Este é até agora o modelo de geração e edição de imagens mais avançado do Google, não apenas incrivelmente rápido, proporcionando uma experiência "relâmpago", mas também conquistando resultados SOTA em várias listas de classificação, ficando muito à frente na LMArena.

O Gemini 2.5 Flash Image já atinge capacidade SOTA logo no lançamento | Fonte da imagem: LMarena.ai

No blog técnico, o Google mencionou que o Gemini 2.0 Flash já havia conquistado desenvolvedores graças à sua baixa latência e excelente custo-benefício, mas os usuários sempre esperaram por imagens de maior qualidade e maior controle criativo. O Gemini 2.5 Flash Image chega com essas atualizações de peso: a consistência de personagens finalmente é mantida plenamente, a edição de imagens baseada em prompts é mais precisa, a fusão de múltiplas imagens é natural e fluida, e, com a compreensão do conhecimento do mundo real, ele não é apenas um modelo, mas sim o "ponto de partida" para a próxima geração de aplicativos de sucesso.

O GeekPark também foi um dos primeiros a testá-lo. Surpreendentemente, não se trata apenas de uma atualização de modelo, mas pela primeira vez sentimos que o futuro da edição de imagens por IA já está ao nosso alcance.

Já disponível para testes no Google AI Studio | Fonte da imagem: GeekPark

No início, minha intenção era apenas experimentar normalmente, "ver o que há de novo em termos de velocidade". Mas, para minha surpresa, em poucas horas de uso, pude vislumbrar o formato dos próximos aplicativos de sucesso.

No passado, estávamos acostumados com ferramentas como Meitu, onde bastava clicar em alguns botões ou aplicar um filtro para melhorar rapidamente uma foto. Mas o Gemini 2.5 Flash Image proporciona uma sensação totalmente diferente. Ele é incrivelmente rápido, inteligente como um designer que entende seus desejos: basta dizer o que você quer e, em poucos segundos, ele entrega o resultado.

Além do efeito, a velocidade é outro diferencial do Gemini 2.5 Flash Image em relação a modelos anteriores | Fonte da imagem: GeekPark

01 Geração ultrarrápida, resultados em segundos

O aspecto mais direto da experiência nano banana é a velocidade. Antes, ao usar alguns modelos open source, mesmo com um computador potente, era preciso esperar dezenas de segundos ou mais para gerar uma imagem decente a partir de um prompt. Para usuários de dispositivos móveis, essa espera era ainda mais penosa.

Mas o Gemini 2.5 Flash Image reduziu essa barreira para o nível de poucos segundos. Ele é o modelo multimodal nativo mais "novo, rápido e eficiente" segundo o Google, com otimizações significativas. Em meus testes, ao inserir um prompt, o resultado era gerado em três ou quatro segundos, com resolução e detalhes bastante nítidos. (UTC+8)

Essa experiência lembra o uso diário do Meitu: ao clicar no botão "embelezar", o efeito é quase instantâneo. A diferença é que o Meitu aplica filtros prontos, enquanto o Gemini 2.5 Flash Image constrói uma imagem do zero ou faz grandes modificações conforme seu pedido. Essa sensação de "apontar e acertar" é algo impensável nos processos tradicionais e trabalhosos de edição de imagens.

Demandas como "remover pessoas do fundo" podem ser resolvidas com um único prompt | Fonte da imagem: GeekPark

Se a velocidade resolve a experiência dos usuários tradicionais de edição, então a "multimodalidade nativa" expande os limites da capacidade de imagens por IA.

O Gemini 2.5 Flash Image não só gera imagens, mas também entende entradas de texto e imagem simultaneamente. Isso significa que posso fornecer uma foto e um prompt textual juntos, e ele irá combinar as informações para entender exatamente o que desejo.

Por exemplo, fiz upload de uma foto tirada na rua e pedi para "mudar o fundo para uma paisagem noturna de Shinjuku, Tóquio". Ele não só identificou corretamente o sujeito da foto, como também recortou a pessoa com precisão e substituiu o fundo por uma rua iluminada de Shinjuku. O mais impressionante é que manteve a iluminação do personagem, sem aquele efeito artificial comum em recortes manuais.

Esse nível de compreensão me lembra uma função frequentemente mencionada pelos fabricantes de celulares nos últimos anos: "trocar o fundo com um clique". Mas, antigamente, o resultado era com bordas desfocadas e iluminação errada, parecendo falso. Agora, o Gemini 2.5 Flash Image usa conhecimento de mundo e compreensão visual para aprimorar esses detalhes, entregando resultados muito mais naturais e preservando detalhes que modelos tradicionais de texto-para-imagem ou imagem-para-imagem não conseguem.

Imagem original & resultado gerado pelo Gemini 2.5 Flash Image | Fonte da imagem: GeekPark

É por isso que acredito que ele redefinirá a experiência de edição: não depender mais de ajustes manuais, mas usar a compreensão semântica do modelo para realizar tarefas de forma eficiente, especialmente em cenários de edição de retratos, onde os detalhes são cruciais.

Para esse tipo de necessidade de edição de retratos, a consistência de personagens do Gemini 2.5 Flash Image realmente oferece uma experiência inédita de "Vibe Photoshoping".

Em um segundo, ajuda o programador a "salvar a reputação" | Fonte da imagem: GeekPark

Essa experiência quebra a impressão anterior de muitos sobre geração de imagens por IA — "esotérica": se o prompt é bom, o resultado é surpreendente; se o prompt é mediano, o resultado pode ser completamente fora do esperado.

Mas no Gemini 2.5 Flash Image, percebi que essa "sensação esotérica" foi bastante reduzida. Ele entende os prompts com mais precisão e de forma mais intuitiva para o usuário — é por isso que muitos acham que ele é muito mais fácil de usar.

Por exemplo, ao pedir "desfoque o fundo e destaque a pessoa em primeiro plano", em poucos segundos a imagem gerada era exatamente o que eu queria; pedi para "trocar a expressão da pessoa na foto por um sorriso", e não só o canto da boca se levantou, mas até o olhar foi ajustado, com detalhes impressionantes; até testei "colorir uma foto em preto e branco", e o resultado não foi uma coloração aleatória, mas sim uma aproximação fiel ao clima das fotos históricas.

Essa capacidade de "dizer e fazer" me faz lembrar do passado, quando usava o Meitu e, ao tentar suavizar a pele, acabava com um rosto artificialmente embelezado. Agora, o Gemini 2.5 Flash Image é preciso e comedido, realmente entende o que você quer e tenta reproduzir fielmente.

02 Capacidade aprimorada, difícil voltar atrás

Para ser mais direto, comparei com as ferramentas de edição móvel que uso no dia a dia.

No Snapseed, para desfocar o fundo, normalmente preciso gastar um ou dois minutos selecionando manualmente a área em primeiro plano e ajustando o nível de desfoque. Mesmo com prática, é preciso revisar várias vezes.

No Meitu, embora haja a função de desfoque de fundo com um clique, frequentemente as bordas da pessoa também ficam desfocadas, o que não é natural.

Já no Gemini 2.5 Flash Image, basta uma frase: ele identifica automaticamente os limites entre pessoa e fundo, o desfoque é natural e não precisa de retoques.

Essa comparação mostra um ponto: o Gemini 2.5 Flash Image liberta o usuário de operações complexas, transferindo mais trabalho para o modelo. Para o usuário comum, reduz a barreira da edição; para profissionais, economiza muito tempo.

Minha maior impressão após o teste é que o Gemini 2.5 Flash Image já não é apenas uma ferramenta de edição, mas se aproxima de um "assistente inteligente".

Antes, ao usar o Meitu, estávamos diante de um conjunto de funções predefinidas: filtros, embelezamento, mosaico, cada botão com uma função. Era preciso escolher e ajustar passo a passo até ficar satisfeito.

Agora, a lógica do Gemini 2.5 Flash Image é totalmente diferente. Ele não exige que você aprenda a lógica da ferramenta, mas entende diretamente sua necessidade. Basta dizer, e ele faz por você.

Essa mudança parece sutil, mas na verdade altera completamente a relação do processo de edição. Antes, nos adaptávamos à ferramenta; agora, a ferramenta se adapta a nós. Esse modo de interação é o protótipo da próxima geração de aplicativos.

No momento, o Gemini 2.5 Flash Image ainda está em estágio inicial e pode ter limitações funcionais. Mas sua velocidade, compreensão e fidelidade já são suficientes para inspirar grandes expectativas para o futuro.

E se ele fosse integrado ao Meitu, como seria? Talvez você abra o app, diga ao celular "melhore esta foto, deixe a pele mais natural", e em poucos segundos o resultado aparece (UTC+8); talvez, ao tirar uma foto em viagem, você diga "mude o tempo para ensolarado" e a imagem fique imediatamente radiante; ou até mesmo, na edição de vídeo, uma frase muda o clima de todo o trecho.

Esse modo pode rapidamente se tornar uma função principal de edição de imagens nos sistemas operacionais móveis | Fonte da imagem: Twitter

É por isso que acredito que ele revolucionará rapidamente o fluxo de trabalho das ferramentas de edição, definindo a próxima geração do "Meitu": não apenas edição, mas uma nova forma de interação com imagens, tornando a IA sua parceira na pós-produção fotográfica.

Porém, atualmente o Gemini 2.5 Flash Image ainda não é um app de edição pronto para o público geral: não só porque seu objetivo principal ainda é a geração de imagens, e não o ajuste fino em fotos existentes, mas também porque todas as imagens criadas ou editadas com ele trazem uma marca d'água digital SynthID, para identificação de conteúdo gerado por IA em plataformas sociais.

03 O ponto de explosão do sucesso

Pensando bem, o Meitu se tornou um aplicativo popular porque resolveu, da forma mais simples, o problema que todos queriam resolver — deixar as fotos mais bonitas.

O Gemini 2.5 Flash Image vai além, transformando capacidades complexas de IA em uma experiência de "imagem pronta em segundos" acessível a todos.

Quando pedi pela primeira vez "desfoque o fundo para mim" e, em poucos segundos, a imagem foi tratada de forma natural, ficou claro para mim: este é o ponto de partida de um aplicativo de sucesso. Ele não é apenas um modelo, mas a base para inúmeros novos produtos no futuro.

Função de IA para trocar o céu com um clique, que fez sucesso entre usuários de celular nos últimos anos | Fonte da imagem: comunidade vivo

Talvez, daqui a alguns anos, esqueçamos o codinome Banana, mas veremos cada vez mais ferramentas de edição de imagens que permitem "dizer o que quer e realizar imediatamente", tornando-se, como o Meitu, uma memória coletiva de uma geração de usuários.

Só que desta vez, a IA levará a imaginação ainda mais longe.

Aviso Legal: o conteúdo deste artigo reflete exclusivamente a opinião do autor e não representa a plataforma. Este artigo não deve servir como referência para a tomada de decisões de investimento.

PoolX: Bloqueie e ganhe

Pelo menos 12% de APR. Quanto mais bloquear, mais pode ganhar.

Bloquear agora!

Talvez também goste

O relatório de empregos de setembro sofrerá outra "grande revisão para baixo" e abrirá a porta para um "corte de 50 pontos-base"?

新浪财经•2025/08/30 13:38

Óculos inteligentes continuam a impulsionar o setor; novo produto da Meta pode ser lançado no próximo mês, revelando a disposição das empresas A-share na indústria

新浪财经•2025/08/30 13:37

Ranking mais recente dos 100 principais aplicativos de IA do mundo: ChatGPT lidera, Google avança rapidamente e ocupa o segundo lugar, enquanto Quark da Alibaba chega à 9ª posição.

新浪财经•2025/08/30 13:37

Por que a "tarifa de reciprocidade" de Trump foi considerada "ilegal"? O que acontecerá a seguir?

老虎证券•2025/08/30 12:17

Populares

Mais

O relatório de empregos de setembro sofrerá outra "grande revisão para baixo" e abrirá a porta para um "corte de 50 pontos-base"?

Óculos inteligentes continuam a impulsionar o setor; novo produto da Meta pode ser lançado no próximo mês, revelando a disposição das empresas A-share na indústria