Остання AI-модель зображень "Banana" від Google викликає ажіотаж серед користувачів завдяки "Vibe Photoshoping"

深潮2025/08/29 15:14

Переглянути оригінал

-:深潮TechFlow

Високий рівень узгодженості ролей забезпечує безпрецедентний досвід «Vibe Photoshoping».

Пам’ятаєте загадкову AI-модель для редагування зображень «nano-banana», яка нещодавно викликала бурхливі обговорення? Тоді на LMArena, арені великих мовних моделей, вона завдяки своїм видатним результатам стала справжньою сенсацією. Інженери Google Gemini також по черзі підігрівали інтерес у соцмережах, і навіть певний час її вважали прототипом Gemini 3.0 Pro.

Тепер Google нарешті зняла завісу таємничості з цього продукту.

О 8:00 ранку за східноазіатським часом 27 серпня Google AI Studio офіційно представила Gemini 2.5 Flash Image (кодова назва nano banana) 🍌.

Gemini 2.5 Flash Image, на яку чекали так довго, нарешті з’явилася | Джерело: GeekPark

Це найсучасніша на сьогодні модель генерації та редагування зображень від Google. Вона не лише надзвичайно швидка, забезпечуючи майже «блискавичний» досвід, а й досягла SOTA-результатів у багатьох рейтингах, а на LMArena значно випереджає конкурентів.

Gemini 2.5 Flash Image одразу досягла SOTA-рівня | Джерело: LMarena.ai

У технічному блозі Google зазначає, що Gemini 2.0 Flash вже завоювала прихильність розробників завдяки низькій затримці та високій ефективності, але користувачі очікували ще вищої якості зображень і більш потужного контролю над творчим процесом. Саме з цими масштабними оновленнями і з’явилася Gemini 2.5 Flash Image: нарешті повністю збережена узгодженість ролей, редагування зображень за підказками стало точнішим, поєднання кількох зображень виглядає природно й плавно, а розуміння реального світу дозволяє моделі стати не просто інструментом, а справжньою «точкою відліку» для наступного покоління хітових застосунків.

GeekPark також одним із перших протестував цю модель. Неочікувано, це не просто оновлення моделі — вперше стає зрозуміло, що майбутнє AI-редагування зображень вже зовсім поруч.

У Google AI Studio вже відкрито доступ до тестування | Джерело: GeekPark

Спочатку я просто хотів подивитися, «наскільки швидше» працює нова модель. Але кілька годин тестування дозволили мені зазирнути у майбутнє наступного покоління хітових застосунків.

Раніше ми звикли до таких інструментів, як Meitu XiuXiu: натискаєш кнопку, застосовуєш фільтр — і фото миттєво стає красивішим. Але Gemini 2.5 Flash Image — це зовсім інший рівень. Вона неймовірно швидка, розумна, як дизайнер, що розуміє ваші думки: достатньо просто описати бажаний ефект, і за кілька секунд ви отримаєте готовий результат.

Окрім ефекту, швидкість — ще одна очевидна відмінність Gemini 2.5 Flash Image від попередніх моделей | Джерело: GeekPark

01 Блискавичне створення — результат за кілька секунд

Найочевидніше враження від nano banana — це швидкість. Раніше, навіть якщо у вас потужний комп’ютер, при використанні деяких open-source моделей доводилося чекати десятки секунд або й довше, щоб отримати пристойне зображення. Для користувачів смартфонів це очікування було ще боліснішим.

Але Gemini 2.5 Flash Image знизила цю планку до кількох секунд. Це, за заявою Google, «найновіша, найшвидша та найефективніша» нативна мультимодальна модель, у яку вкладено багато зусиль з оптимізації. Під час мого тестування достатньо було ввести підказку — і вже за три-чотири секунди (UTC+8) я отримував результат із чіткою роздільною здатністю та деталізацією.

Цей досвід нагадує використання Meitu XiuXiu: натискаєш кнопку — і ефект видно миттєво. Різниця в тому, що Meitu XiuXiu застосовує фільтри до вже існуючого фото, а Gemini 2.5 Flash Image створює зображення з нуля або радикально змінює фото відповідно до ваших побажань. Таке «точне виконання» було неможливим у традиційних складних процесах P-редагування.

Наприклад, таке завдання, як «видалити перехожих із фону», вирішується одним Prompt | Джерело: GeekPark

Якщо швидкість вирішує проблему досвіду традиційних користувачів P-редакторів, то «нативна мультимодальність» розширює межі можливостей AI-зображень.

Gemini 2.5 Flash Image не лише генерує зображення, а й розуміє текстові та візуальні підказки одночасно. Це означає, що я можу завантажити фото й додати текстову інструкцію — модель врахує обидва джерела інформації, щоб зрозуміти, чого я хочу.

Наприклад, я завантажив фото, зроблене на вулиці, і попросив «змінити фон на нічний пейзаж Токіо, район Сіндзюку» (UTC+8). Модель не лише розпізнала головний об’єкт на фото, а й акуратно вирізала людину та замінила фон на неонові вогні Сіндзюку. Що ще важливіше — вона зберегла єдність світлотіні, уникнувши ефекту «грубої вставки», який часто виникає при ручному вирізанні.

Така здатність нагадує функцію «заміна фону в один клік», яку останніми роками активно просували виробники смартфонів у вбудованих галереях. Але тоді результат часто мав розмиті краї та неправильне освітлення, виглядав неприродно. Тепер же Gemini 2.5 Flash Image використовує знання про світ і візуальне розуміння для відтворення деталей, забезпечуючи набагато точніше збереження деталей, ніж традиційні текст-у-зображення/зображення-у-зображення моделі.

Оригінал & результат Gemini 2.5 Flash Image | Джерело: GeekPark

Ось чому я вважаю, що ця модель переосмислює досвід редагування: тепер це не ручне налаштування, а виконання завдань завдяки природному семантичному розумінню моделі, особливо у випадках, коли потрібна висока деталізація, наприклад, у портретній обробці.

Для таких завдань, як обробка портретів, Gemini 2.5 Flash Image забезпечує безпрецедентний досвід «Vibe Photoshoping» завдяки узгодженості ролей.

За секунду допоможе програмісту «врятувати репутацію» | Джерело: GeekPark

Цей досвід руйнує уявлення багатьох про AI-генерацію зображень як про «магію»: якщо підказка хороша — результат вражає, якщо ні — може бути зовсім не те, що потрібно.

Але в Gemini 2.5 Flash Image це відчуття «магії» значно зменшилося. Модель точніше розуміє підказки, краще відповідає інтуїції користувача — саме тому багато хто вважає її набагато зручнішою.

Наприклад, я сказав: «розмий фон, виділи передній план» (UTC+8) — і за кілька секунд отримав саме те, що хотів; попросив «зробити посмішку на обличчі людини на фото» — і модель не лише підняла кутики губ, а й змінила вираз очей, зберігши всі деталі; навіть спробував «розфарбувати чорно-біле фото» — і результат був максимально наближений до історичної атмосфери, а не просто випадковий набір кольорів.

Така здатність «сказав — зроблено» нагадує мені досвід із Meitu XiuXiu: коли хотів просто згладити шкіру, а отримував «десятий рівень краси» і неприродне обличчя. Тепер же Gemini 2.5 Flash Image діє точно й стримано, дійсно розуміє ваші побажання й намагається їх відтворити.

02 Підсилення можливостей — після цього важко повернутися назад

Для наочності я спеціально порівняв цю модель із моїми звичними мобільними інструментами для редагування.

У Snapseed, щоб розмити фон, потрібно вручну виділити передній план і налаштувати ступінь розмиття — це займає хвилину-дві, навіть якщо ви досвідчений користувач.

У Meitu XiuXiu є функція розмиття фону в один клік, але вона часто розмиває й краї об’єкта, тому результат виглядає неприродно.

А в Gemini 2.5 Flash Image достатньо однієї фрази — модель сама визначає межі між людиною й фоном, розмиває природно, без потреби в додатковому редагуванні.

Змінюючи деталі на зображенні, модель уникає «хаотичного малювання», яке часто трапляється в попередніх AI-інструментах | Джерело: Twitter

Це порівняння показує головне: Gemini 2.5 Flash Image звільняє користувача від складних операцій, перекладаючи більшу частину роботи на модель. Для звичайних людей це знижує поріг входу в редагування, а для професіоналів — економить багато часу.

Після тестування я зрозумів: Gemini 2.5 Flash Image — це вже не просто інструмент для редагування, а щось ближче до «інтелектуального асистента».

Раніше ми користувалися Meitu XiuXiu як набором готових функцій: фільтри, краса, мозаїка — кожна кнопка відповідає певній дії. Ви поступово обираєте й налаштовуєте, поки не досягнете бажаного результату.

Тепер же логіка Gemini 2.5 Flash Image зовсім інша. Вам не потрібно вивчати інтерфейс — достатньо просто озвучити побажання, і модель усе зробить за вас.

Здається, це дрібниця, але насправді це повністю змінює відносини у процесі P-редагування: раніше ми підлаштовувалися під інструмент, тепер інструмент підлаштовується під нас. Така взаємодія — це вже прототип застосунків нового покоління.

На даний момент Gemini 2.5 Flash Image ще на ранній стадії, її функціонал має певні обмеження. Але швидкість, розуміння й точність відтворення вже зараз дають простір для фантазії щодо майбутнього.

Що буде, якщо об’єднати її з Meitu XiuXiu? Можливо, ви відкриєте застосунок, скажете: «Відредагуй це фото, зроби шкіру природнішою» — і за кілька секунд отримаєте результат (UTC+8); можливо, під час подорожі скажете: «Зміни погоду на сонячну» (UTC+8) — і фото одразу стане яскравим; або навіть у відеоредакторі ви зможете змінити атмосферу всього фрагмента однією фразою.

Такий підхід може швидко стати основною функцією редагування зображень у мобільних ОС | Джерело: Twitter

Ось чому я вважаю, що ця модель швидко змінить існуючі процеси P-редагування й визначить наступне покоління «Meitu XiuXiu»: це вже не просто редагування, а переосмислення взаємодії з обробкою зображень, де AI стає вашим партнером у постобробці фотографій.

Втім, наразі Gemini 2.5 Flash Image ще не може стати масовим P-редактором «з коробки»: її основна мета — генерація зображень, а не тонке доопрацювання вже існуючих фото, і всі створені чи відредаговані зображення містять цифровий водяний знак SynthID для ідентифікації AI-контенту на соціальних платформах.

03 Точка вибухового зростання

Згадайте, чому Meitu XiuXiu колись стала масовим застосунком: вона найпростішим способом вирішила проблему, яка хвилювала всіх — зробити фото красивішим.

Gemini 2.5 Flash Image йде ще далі: складні AI-можливості перетворюються на «миттєвий» досвід, доступний кожному.

Коли я вперше сказав їй: «розмий фон» (UTC+8), і за кілька секунд отримав природно оброблене зображення, я зрозумів: це і є точка вибухового зростання хітового застосунку. Це не просто модель, а базова технологія для безлічі майбутніх продуктів.

AI-функція «заміна неба в один клік», яка кілька років тому стала хітом серед користувачів смартфонів | Джерело: спільнота vivo

Можливо, через кілька років ми забудемо кодову назву Banana, але побачимо дедалі більше таких інструментів для обробки зображень, які дозволяють «просто сказати — і отримати бажане», і вони, як колись Meitu XiuXiu, стануть спільною пам’яттю цілого покоління користувачів.

Тільки цього разу AI розширить межі нашої уяви ще далі.

Відмова від відповідальності: зміст цієї статті відображає виключно думку автора і не представляє платформу в будь-якій якості. Ця стаття не повинна бути орієнтиром під час прийняття інвестиційних рішень.

PoolX: Заробляйте за стейкінг

До понад 10% APR. Що більше монет у стейкінгу, то більший ваш заробіток.

Надіслати токени у стейкінг!

Вас також може зацікавити

Bank of America підтримує обмеження на алокацію криптовалюти у 4%, скасовує обмеження для радників і додає покриття bitcoin ETF: звіт

Bank of America, як повідомляється, дозволить клієнтам Merrill, Private Bank та Merrill Edge розміщати 1%–4% своїх портфелів у криптовалюті. Банк також почне аналітичне покриття спотових Bitcoin ETF від BlackRock, Bitwise, Fidelity та Grayscale з 5 січня. Зміна політики BoA завершує багаторічну заборону, яка не дозволяла понад 15 000 радникам проактивно рекомендувати криптопродукти.

The Block•2025/12/02 15:22

Bank of America підтримує обмеження на алокацію криптовалюти у 4%, скасовує обмеження для радників і додає покриття bitcoin ETF: звіт

FDIC готується впровадити новий регламент щодо стейблкоїнів у США відповідно до GENIUS Act

Kriptoworld•2025/12/02 15:17

ФРС США завершує QT з вливанням ліквідності у $13,5 мільярдів, чи очікується ралі на крипторинку?

Федеральна резервна система США завершила політику кількісного згортання 1 грудня та влила 13,5 мільярда доларів у банківську систему через операції овернайт-репо, що підвищило надії на зростання криптовалютного ринку.

Coinspeaker•2025/12/02 15:13