Google最新「Banana」AI圖像模型，讓網友瘋玩「Vibe Photoshoping」

Bitget App

交易「智」變

Bitget

資訊中心

深潮2025/08/29 15:14

顯示原文

作者:深潮TechFlow

高度的角色一致性，帶來前所未有的「Vibe Photoshoping」體驗。

高度的角色一致性，帶來了前所未有的「Vibe Photoshoping」體驗。

還記得之前大家熱議的神秘 AI 圖片編輯模型「nano-banana」嗎？當時在 LMArena 大語言模型競技場裡，它憑藉出色表現一度被討論得沸沸揚揚。Google Gemini 各路技術大牛也是輪番出馬，在社交媒體上吊足眾人胃口，甚至一度成為了傳聞中的 Gemini 3.0 Pro。

如今，Google 終於揭開了它的神秘面紗。

東八區 8 月 27 日凌晨，Google AI Studio 正式發佈了 Gemini 2.5 Flash Image（代號 nano banana）🍌。

預熱許久終於登場的 Gemini 2.5 Flash Image ｜圖片來源：GeekPark

這是迄今為止 Google 最先進的圖像生成與編輯模型，不僅速度快得離譜，幾乎是「閃電般」的體驗，還在多個榜單上拿下了 SOTA 的成績，在 LMArena 上更是遙遙領先。

一登場就達到 SOTA 能力的 Gemini 2.5 Flash Image ｜圖片來源：LMarena.ai

在技術博客裡，Google 提到 Gemini 2.0 Flash 已經憑藉低延遲和高性價比贏得了開發者的青睞，但用戶們一直期待更高質量的圖像和更強大的創作控制。Gemini 2.5 Flash Image 正是帶著這些重磅升級而來：角色一致性終於得以充分保持，基於提示的圖片編輯也更精準，多幅圖像的融合效果自然流暢，再加上對現實世界知識的理解，讓它不僅是一款模型，更像是為下一代爆款應用奠定基礎的「原點」。

GeekPark 也在第一時間體驗了它。出乎意料的是，這不僅僅是一個模型更新，它讓人第一次真切地感覺到，AI 修圖未來的樣子已經近在眼前。

Google AI Studio 中目前已經開放體驗｜圖片來源：GeekPark

一開始，我的確只是抱著常規體驗、「看看新模型又快在哪」的心態。可沒想到，短短幾個小時的體驗，讓我彷彿提前窺見了下一代爆款應用的模樣。

過去我們習慣了美圖秀秀這樣的工具，點點按鈕、套個濾鏡，照片就能迅速變美。但 Gemini 2.5 Flash Image 給人的感覺完全不同。它快得不可思議，聰明得像個懂你心思的設計師，你只需要說出想要的效果，它就能在幾秒鐘裡把畫面呈現出來。

除了效果，速度也是 Gemini 2.5 Flash Image 另一個明顯不同於此前模型生圖產品的體驗｜圖片來源：GeekPark

01 極速生成，幾秒鐘出結果

Nano banana 體驗最直觀的就是速度。以往在使用一些開源模型時，即使你電腦配置不錯，從輸入提示到生成一張像樣的圖，也得等個幾十秒甚至更久。對於手機端用戶來說，這個等待過程更是煎熬。

但 Gemini 2.5 Flash Image 把這個門檻直接拉低到了幾秒鐘的級別。它本身是 Google 宣稱的「最新、最快、最高效」的原生多模態模型，在優化上明顯下了很大功夫。我在實際測試時，輸入一句提示，大概三四秒就能生成結果（UTC+8），而且解析度和細節都相當清晰。

這種體驗很像我們日常用美圖秀秀處理照片：點一下「美顏」按鈕，幾乎是即時見效。區別在於，美圖秀秀是用算法套現成濾鏡，而 Gemini 2.5 Flash Image 是在從零構建一張圖，或者把一張照片按你的需求進行大幅改造。這種「指哪打哪」的爽感，是以往繁瑣的 P 圖流程完全不可想像的。

類似這種「刪除路人背景」的需求，只需要一個 Prompt 就能解決｜圖片來源：GeekPark

如果說速度解決的是傳統 P 圖用戶的體驗感，那麼「原生多模態」解決的就是 AI圖片能力邊界。

Gemini 2.5 Flash Image 不僅能生成圖片，還能同時理解文字和圖像輸入。這意味著我可以把一張照片和一段文字提示同時給它，它會結合兩者的信息去理解我到底想要什麼。

舉個例子，我上傳了一張在街頭拍的照片，然後告訴它「把背景改成東京新宿的夜景」。（UTC+8）結果它不僅識別出了我上傳照片裡的主體，而且準確地把人抠出來，背景替換成了霓虹燈閃爍的新宿街頭。更難得的是，它還保持了人物光影的統一，完全沒有人工抠圖經常無法避免的那種「硬抠貼」的效果。

這種理解力讓我想起近幾年手機廠商在系統自帶相冊中經常被提到的一個功能——「一鍵換背景」。但區別在於，當年的換背景常常邊緣發虛、光影不對，效果很假。而現在，Gemini 2.5 Flash Image 能用世界知識和視覺理解來補足這些細節，結果自然得多，獲得了遠比傳統文生圖/圖生圖模型工具更準確的畫面細節保留。

原圖 & Gemini 2.5 Flash Image 生成效果｜圖片來源：GeekPark

這也是為什麼我覺得它會重新定義修圖體驗：不再是依賴大量手工調整，而是靠模型的自然語義理解來「大力飛磚」式的完成任務，例如在人像 P 圖這種對畫面細節要求極高的場景。

對於這種人像圖片處理需求，Gemini 2.5 Flash Image 的角色一致性真的提供了一種前所未有的「Vibe Photoshoping」體驗。

一秒幫程式設計師「挽尊」｜圖片來源：GeekPark

這種體驗打破了很多人對 AI 圖像生成以往印象 —— 「玄學」：無論你提示詞寫得好，出圖效果驚艷；提示詞寫得一般，生成的東西可能完全跑偏。

但在 Gemini 2.5 Flash Image 裡，我發現這種「玄學感」被削弱了很多。它對提示詞的理解更精準，也更貼近用戶的直覺—— 這就是為什麼不少人會突然覺得它會好用很多的原因。

比如我對它說「模糊背景，突出前景人物」（UTC+8），幾秒鐘後生成的圖正是我想要的效果；我讓它「把照片裡的人換成微笑的表情」，結果不僅嘴角微微上揚，連眼神都做了調整，細節非常到位；我甚至試過「給黑白照上色」，結果輸出的彩色圖並不是亂塗一氣，而是盡可能貼近歷史照片中該有的色彩氛圍。

這種「說到做到」的能力，讓我想到過去用美圖秀秀時，明明只是想磨皮，結果整張臉變成了「開了十級美顏」的假人臉。而現在，Gemini 2.5 Flash Image 的操作是精準的、克制的，它真的理解你要什麼，然後盡量還原。

02 能力加強，旦用難回

為了更直觀，我特意拿它和我日常常用的移動端修圖工具做了對比。

在 Snapseed 上，我如果要模糊背景，通常需要花一兩分鐘手動圈選前景區域，再調整模糊程度。即使操作熟練，也免不了反覆修改。

在美圖秀秀上，雖然有一鍵背景模糊功能，但經常會把人物的邊緣模糊掉，效果不夠自然。

而在 Gemini 2.5 Flash Image 上，我只需要一句話，它自動識別出人物和背景的邊界，模糊效果自然，完全不需要二次修飾。

在更改畫面中細節的同時，仍然對其他背景部分避免了此前 AI 工具經常出現的「亂塗亂畫」｜圖片來源：Twitter

這種對比其實說明了一點：Gemini 2.5 Flash Image 把用戶從複雜操作中解放了出來，把更多的工作交給了模型。對於普通人來說，它降低了修圖的門檻；對於專業人士來說，它節省了大量時間。

體驗下來，我最大的感受是，Gemini 2.5 Flash Image 已經不再只是一個修圖工具，而是更接近「智能助手」。

過去，我們用美圖秀秀，是在使用一個預設好的功能合集，濾鏡、美顏、馬賽克，每一個按鈕對應一個功能。你要做的就是一點點選擇、一步步調整，直到滿意。

而現在，Gemini 2.5 Flash Image 的邏輯完全不同。它不再要求你學習工具的邏輯，而是直接理解你的需求。你只要說出來，它就替你完成。

這種轉變看似細微，但實質上完全改變了 P 圖這個流程的關係。以前是我們去適應工具，現在是工具來適應我們。這種交互方式，本身就是下一代應用形態的雛形。

站在現在來看，Gemini 2.5 Flash Image 還處在早期階段，功能上可能還有邊界。但它展現出來的速度、理解力和還原度，足以讓人對未來充滿想像。

如果把它和美圖秀秀結合起來，會是什麼樣子？可能是你打開應用，對著手機說一句「幫我修一下這張照片，讓皮膚自然一些」，幾秒鐘後結果就生成了（UTC+8）；可能是旅行拍照時，你告訴它「把天氣改成晴天」（UTC+8），照片立刻變成陽光明媚的樣子；甚至可能是影片編輯裡，你用一句話就能改變整個片段的氛圍。

這種方式未來可能會迅速成為手機操作系統中的主流圖片編輯功能｜圖片來源：Twitter

這就是為什麼我覺得它會迅速革命 P 圖工具領域現有的操作流程，定義下一代「美圖秀秀」：不僅僅是修圖，而是重新塑造圖像處理的交互方式，讓 AI 成為你的攝影後期夥伴。

但目前 Gemini 2.5 Flash Image 還並不能一步到位，充當開箱即用的大眾 P 圖 App：不僅是因為它的主要目的仍然是圖像生成而非在現有的基礎上微調，而且所有通過 Gemini 2.5 Flash Image 創建或編輯的圖像都會包含一個SynthID 數字浮水印，用於社交內容平台識別 AI 生成內容。