Googleの最新「バナナ」AI画像モデル、ネットユーザーが「Vibe Photoshoping」で夢中に遊ぶ

Bitget App

スマートな取引を実現

Bitget

ニュース

深潮2025/08/29 15:14

原文を表示

著者:深潮TechFlow

高い役割の一貫性により、これまでにない「Vibe Photoshoping」体験がもたらされます。

高度なキャラクター一貫性が、これまでにない「Vibe Photoshoping」体験をもたらしました。

以前、話題となった謎のAI画像編集モデル「nano-banana」を覚えていますか？当時、LMArenaの大規模言語モデル競技場で、その優れたパフォーマンスが大きな注目を集めました。Google Geminiの技術者たちも次々と登場し、SNS上で多くの人々の期待を煽り、一時は噂のGemini 3.0 Proとまで言われていました。

そして今、Googleがついにそのベールを脱ぎました。

東アジア標準時8月27日未明、Google AI Studioは正式にGemini 2.5 Flash Image（コードネーム：nano banana）🍌をリリースしました。

長らく予告されてきたGemini 2.5 Flash Imageがついに登場｜画像出典：GeekPark

これはこれまでで最も先進的なGoogleの画像生成・編集モデルであり、驚くほどの高速性を持ち、まさに「稲妻のような」体験を提供します。さらに、複数のランキングでSOTA（最先端）の成績を収め、LMArenaでも大きくリードしています。

登場と同時にSOTA能力を達成したGemini 2.5 Flash Image｜画像出典：LMarena.ai

Googleは技術ブログで、Gemini 2.0 Flashが低遅延と高コストパフォーマンスで開発者の支持を得ていると述べていますが、ユーザーはより高品質な画像と強力なクリエイティブコントロールを求めていました。Gemini 2.5 Flash Imageは、まさにこれらの大幅なアップグレードを携えて登場しました。キャラクターの一貫性が十分に保たれ、プロンプトに基づく画像編集もより正確に、複数画像の融合も自然で滑らかになり、現実世界の知識理解も加わりました。もはや単なるモデルではなく、次世代のヒットアプリの基盤となる「原点」と言えるでしょう。

GeekParkもいち早く体験しました。驚くべきことに、これは単なるモデルのアップデートではなく、AI画像編集の未来がすぐそこにあると実感できるものでした。

Google AI Studioで現在すでに体験可能｜画像出典：GeekPark

最初は、単なる新モデルの速度を試すくらいの気持ちでした。しかし、わずか数時間の体験で、次世代のヒットアプリの姿を垣間見た気がしました。

これまで私たちはMeitu XiuXiuのようなツールに慣れていて、ボタンを押してフィルターをかければ、写真がすぐに美しくなりました。しかし、Gemini 2.5 Flash Imageは全く異なる印象を与えます。信じられないほど速く、まるであなたの気持ちを理解するデザイナーのように、望む効果を伝えるだけで、数秒で画像を生成してくれます。

効果だけでなく、速度もGemini 2.5 Flash Imageが従来モデルの画像生成製品と大きく異なる体験｜画像出典：GeekPark

01 超高速生成、数秒で結果が出る

Nano bananaの最も直感的な体験はその速度です。従来のオープンソースモデルを使う場合、パソコンのスペックが良くても、プロンプトを入力してからまともな画像が生成されるまで数十秒、場合によってはそれ以上かかりました。スマホユーザーにとっては、この待ち時間はさらに苦痛でした。

しかし、Gemini 2.5 Flash Imageはこのハードルを数秒レベルまで一気に下げました。Googleが「最新・最速・最も効率的」と謳うネイティブマルチモーダルモデルであり、最適化に大きな努力が注がれています。実際のテストでは、プロンプトを入力してから3～4秒ほどで結果が生成され（UTC+8）、解像度やディテールも非常に鮮明でした。

この体験は、日常的にMeitu XiuXiuで写真を加工するのに似ています。「美顔」ボタンを押すと、ほぼ瞬時に効果が現れます。違いは、Meitu XiuXiuがアルゴリズムでフィルターをかけるのに対し、Gemini 2.5 Flash Imageはゼロから画像を構築したり、写真を大幅に改造したりできる点です。この「指示した通りに即座に反映される」爽快感は、従来の煩雑な画像編集プロセスでは想像もできませんでした。

このような「通行人の背景を削除する」ニーズも、プロンプト一つで解決｜画像出典：GeekPark

速度が従来の画像編集ユーザーの体験を解決したとすれば、「ネイティブマルチモーダル」が解決したのはAI画像能力の限界です。

Gemini 2.5 Flash Imageは画像生成だけでなく、テキストと画像の入力を同時に理解できます。つまり、写真とテキストプロンプトを同時に与えることで、両方の情報を組み合わせて、ユーザーが本当に求めているものを理解します。

例えば、街頭で撮った写真をアップロードし、「背景を東京新宿の夜景に変えて」と伝えました（UTC+8）。すると、アップロードした写真の被写体を正確に認識し、人物を切り抜いて、背景をネオンが輝く新宿の街並みに置き換えました。さらに、人物の光と影の統一感も保たれており、手作業で切り抜いたときによくある「不自然な貼り付け」感が全くありませんでした。

この理解力は、近年スマホメーカーが標準アルバムアプリでよく取り上げる「ワンタッチ背景変更」機能を思い出させます。しかし、当時の背景変更はエッジがぼやけたり、光と影が合わなかったりして、効果が不自然でした。今では、Gemini 2.5 Flash Imageが世界知識とビジュアル理解でこれらのディテールを補い、従来のテキストto画像/画像to画像モデルツールよりも正確に画面のディテールを保持できます。

元画像 & Gemini 2.5 Flash Image生成効果｜画像出典：GeekPark

これが、私がこのモデルが画像編集体験を再定義すると感じる理由です。もはや大量の手作業調整に頼るのではなく、モデルの自然言語理解によって「一気に」タスクを完了できます。特に人物画像編集のように画面のディテールが非常に重要な場面で、その真価を発揮します。

このような人物画像処理のニーズに対して、Gemini 2.5 Flash Imageのキャラクター一貫性は、これまでにない「Vibe Photoshoping」体験を提供します。

一秒でプログラマーの「名誉回復」｜画像出典：GeekPark

この体験は、多くの人がAI画像生成に抱いていた「運頼み」的な印象を覆します。つまり、プロンプトが上手く書ければ素晴らしい画像ができるが、そうでなければ全く見当違いのものが生成されるというものです。

しかし、Gemini 2.5 Flash Imageでは、この「運頼み感」が大幅に減少しています。プロンプトの理解がより正確で、ユーザーの直感に近い——これが多くの人が「使いやすい」と感じる理由です。

例えば、「背景をぼかして、前景の人物を際立たせて」と伝えると（UTC+8）、数秒後にまさに望んだ効果の画像が生成されました。「写真の人物を笑顔にして」と頼むと、口元が微かに上がるだけでなく、目線まで調整され、ディテールも非常に自然でした。「白黒写真に色を付けて」と試したところ、出力されたカラー画像は適当に色を塗ったものではなく、できる限り歴史写真の色彩雰囲気に近づけていました。

この「言ったことがそのまま実現される」能力は、以前Meitu XiuXiuを使っていたとき、「肌を滑らかにしたいだけなのに、顔全体が『10段階美顔』のような不自然な顔になる」という経験を思い出させます。今では、Gemini 2.5 Flash Imageの操作は正確で控えめ、本当にユーザーの意図を理解し、できるだけ忠実に再現してくれます。

02 能力強化、一度使うと戻れない

より直感的に比較するため、普段使っているモバイル画像編集ツールと比べてみました。

Snapseedでは、背景をぼかすには通常、前景領域を手動で選択し、ぼかしの度合いを調整するのに1～2分かかります。操作に慣れていても、何度も修正が必要です。

Meitu XiuXiuにはワンタッチ背景ぼかし機能がありますが、人物の輪郭までぼかしてしまい、不自然な仕上がりになることが多いです。

一方、Gemini 2.5 Flash Imageでは、一言伝えるだけで人物と背景の境界を自動認識し、ぼかし効果も自然で、二度手間が全くありません。

画面内のディテールを変更しながらも、他の背景部分には従来のAIツールによく見られた「無秩序な描画」を避けている｜画像出典：Twitter

この比較が示すのは、Gemini 2.5 Flash Imageがユーザーを複雑な操作から解放し、より多くの作業をモデルに任せているということです。一般ユーザーにとっては画像編集のハードルを下げ、プロフェッショナルにとっては大量の時間を節約できます。

体験してみて、私が最も強く感じたのは、Gemini 2.5 Flash Imageはもはや単なる画像編集ツールではなく、「インテリジェントアシスタント」に近いということです。

これまで、Meitu XiuXiuを使うときは、あらかじめ用意された機能セット（フィルター、美顔、モザイクなど）を選び、1つ1つ調整していく必要がありました。

しかし今、Gemini 2.5 Flash Imageのロジックは全く異なります。ツールの使い方を学ぶ必要はなく、あなたの要望をそのまま理解してくれます。言葉で伝えるだけで、あとは自動で仕上げてくれます。

この変化は一見小さなものに見えますが、実際には画像編集プロセスの関係性を根本から変えています。これまでは私たちがツールに合わせていたのが、今ではツールが私たちに合わせてくれるのです。このインタラクションこそが、次世代アプリケーションの原型です。

現時点では、Gemini 2.5 Flash Imageはまだ初期段階であり、機能面で限界もあります。しかし、その速度、理解力、再現性は、未来への期待を大きく膨らませます。

もしこれをMeitu XiuXiuと組み合わせたらどうなるでしょうか？アプリを開いて「この写真を自然な肌に修正して」と話しかけるだけで、数秒後に結果が出る（UTC+8）。旅行中に「天気を晴れにして」と伝えれば（UTC+8）、写真がすぐに晴天のように変わる。さらには、動画編集でも一言で全体の雰囲気を変えられるかもしれません。

この方法は将来的にスマホOSの主流画像編集機能になる可能性が高い｜画像出典：Twitter

だからこそ、これが画像編集ツール分野の既存の操作フローを急速に変革し、次世代の「Meitu XiuXiu」を定義すると感じます。単なる画像編集ではなく、画像処理のインタラクションそのものを再構築し、AIがあなたの写真編集パートナーとなるのです。

ただし、現時点でGemini 2.5 Flash Imageは、すぐに使える一般向け画像編集アプリとしてはまだ不十分です。主な目的が画像生成であり、既存画像の微調整ではないこと、そしてGemini 2.5 Flash Imageで作成・編集されたすべての画像には、AI生成コンテンツを識別するためのSynthIDデジタル透かしが含まれているためです。