Najnowszy model AI do obrazów „Banana” od Google sprawia, że internauci szaleją na punkcie „Vibe Photoshopingu”

Bitget App

Trade smarter

Bitget

Wiadomości

MarsBit2025/08/30 06:53

Pokaż oryginał

Przez:TechFlow

Google AI Studio wypuściło Gemini 2.5 Flash Image (o nazwie kodowej nano-banana), czyli najnowocześniejszy model Google do generowania i edycji obrazów, charakteryzujący się dużą szybkością i doskonałymi wynikami na wielu rankingach. Streszczenie wygenerowane przez Mars AI To streszczenie zostało wygenerowane przez model Mars AI, którego dokładność i kompletność treści nadal znajduje się w fazie iteracyjnych aktualizacji.

Czy pamiętasz jeszcze szeroko dyskutowany tajemniczy model AI do edycji obrazów „nano-banana”? W tamtym czasie w LMArena, arenie dużych modeli językowych, dzięki znakomitym wynikom był gorącym tematem dyskusji. Eksperci techniczni Google Gemini również kolejno pojawiali się w mediach społecznościowych, podsycając ciekawość wszystkich, a nawet przez pewien czas model ten był uznawany za domniemanego Gemini 3.0 Pro.

Teraz Google w końcu odsłonił jego tajemniczą kurtynę.

Wschodnia strefa czasowa UTC+8, 27 sierpnia nad ranem, Google AI Studio oficjalnie zaprezentowało Gemini 2.5 Flash Image (nazwa kodowa nano banana) 🍌.

Gemini 2.5 Flash Image, na który czekano od dawna, w końcu pojawił się na scenie | Źródło zdjęcia: GeekPark

To jak dotąd najbardziej zaawansowany model generowania i edycji obrazów Google – nie tylko niesamowicie szybki, oferujący niemal „błyskawiczne” doświadczenie, ale także osiągający SOTA na wielu rankingach, a na LMArena wyraźnie wyprzedzający konkurencję.

Gemini 2.5 Flash Image osiąga SOTA już przy debiucie | Źródło zdjęcia: LMarena.ai

W technicznym blogu Google wspomina, że Gemini 2.0 Flash już zdobył uznanie deweloperów dzięki niskim opóźnieniom i wysokiej efektywności kosztowej, ale użytkownicy oczekiwali wyższej jakości obrazów i większej kontroli twórczej. Gemini 2.5 Flash Image pojawia się właśnie z tymi znaczącymi ulepszeniami: spójność postaci wreszcie jest w pełni zachowana, edycja obrazów na podstawie promptów jest bardziej precyzyjna, łączenie wielu obrazów jest naturalne i płynne, a dzięki zrozumieniu wiedzy o świecie rzeczywistym staje się nie tylko modelem, ale wręcz „punktem wyjścia” dla przyszłych hitowych aplikacji.

GeekPark również natychmiast przetestował ten model. Ku zaskoczeniu, to nie tylko aktualizacja modelu – po raz pierwszy można realnie poczuć, że przyszłość AI w edycji zdjęć jest już na wyciągnięcie ręki.

Google AI Studio już udostępnia możliwość testowania | Źródło zdjęcia: GeekPark

Na początku podchodziłem do tego z nastawieniem na rutynowe testy, „zobaczmy, w czym nowy model jest szybszy”. Nie spodziewałem się jednak, że zaledwie kilka godzin testów pozwoli mi zajrzeć w przyszłość kolejnej generacji hitowych aplikacji.

Dotychczas byliśmy przyzwyczajeni do narzędzi takich jak MeituPic – kilka kliknięć, filtr i zdjęcie staje się piękniejsze. Jednak Gemini 2.5 Flash Image daje zupełnie inne wrażenie. Jest niewiarygodnie szybki, inteligentny jak projektant, który rozumie twoje myśli – wystarczy powiedzieć, jaki efekt chcesz uzyskać, a on w kilka sekund wyczaruje obraz.

Oprócz efektów, szybkość to kolejna wyraźna różnica Gemini 2.5 Flash Image względem wcześniejszych modeli generujących obrazy | Źródło zdjęcia: GeekPark

01 Ekspresowe generowanie – wyniki w kilka sekund

Najbardziej oczywistą cechą nano banana jest prędkość. Wcześniej, korzystając z niektórych modeli open source, nawet przy dobrej konfiguracji komputera, od wpisania promptu do wygenerowania przyzwoitego obrazu trzeba było czekać kilkadziesiąt sekund lub dłużej. Dla użytkowników mobilnych to oczekiwanie było jeszcze bardziej uciążliwe.

Jednak Gemini 2.5 Flash Image obniża ten próg do poziomu kilku sekund. To model natywnie multimodalny, który Google określa jako „najnowszy, najszybszy, najbardziej wydajny”, a optymalizacja jest tu wyraźnie na wysokim poziomie. W moich testach, po wpisaniu promptu, wynik pojawiał się po około 3-4 sekundach, a rozdzielczość i szczegóły były bardzo wyraźne. (UTC+8)

To doświadczenie przypomina korzystanie z MeituPic: kliknięcie przycisku „upiększ”, efekt widoczny niemal natychmiast. Różnica polega na tym, że MeituPic używa algorytmów do nakładania filtrów, a Gemini 2.5 Flash Image buduje obraz od zera lub gruntownie przerabia zdjęcie według twoich wymagań. Ta satysfakcja z „wskazania i gotowe” jest nieporównywalna z dawnymi żmudnymi procesami edycji.

Takie potrzeby jak „usunięcie przechodnia z tła” można rozwiązać jednym promptem | Źródło zdjęcia: GeekPark

Jeśli szybkość rozwiązuje problem doświadczenia użytkownika tradycyjnych narzędzi do edycji, to „natywna multimodalność” przesuwa granice możliwości AI w zakresie obrazów.

Gemini 2.5 Flash Image nie tylko generuje obrazy, ale także rozumie jednocześnie tekst i obraz jako wejście. Oznacza to, że mogę przesłać zdjęcie i prompt tekstowy, a model połączy te informacje, by zrozumieć, czego naprawdę chcę.

Na przykład przesłałem zdjęcie zrobione na ulicy i poprosiłem: „zmień tło na nocny widok Shinjuku w Tokio”. Model nie tylko rozpoznał główny obiekt na zdjęciu, ale też precyzyjnie wyciął postać i zastąpił tło neonowym Shinjuku. Co ważne, zachował spójność światła i cieni na postaci, unikając efektu „twardego wycięcia”, który często pojawia się przy ręcznej edycji.

Ta zdolność rozumienia przypomina mi funkcję „jednym kliknięciem zmień tło”, którą w ostatnich latach producenci smartfonów często promowali w systemowych galeriach. Różnica polega na tym, że dawniej zmiana tła często powodowała rozmycie krawędzi i nienaturalne światło, a efekt był sztuczny. Teraz Gemini 2.5 Flash Image wykorzystuje wiedzę o świecie i rozumienie wizualne, by uzupełnić te szczegóły, a efekt jest znacznie bardziej naturalny i dokładniej zachowuje szczegóły niż tradycyjne narzędzia tekst-na-obraz/obraz-na-obraz.

Oryginał & efekt Gemini 2.5 Flash Image | Źródło zdjęcia: GeekPark

Dlatego uważam, że ten model na nowo zdefiniuje doświadczenie edycji zdjęć: nie polega już na ręcznych poprawkach, ale na naturalnym rozumieniu semantycznym modelu, który „z rozmachem” wykonuje zadanie, np. w przypadku portretów, gdzie szczegóły są kluczowe.

W przypadku edycji zdjęć portretowych, spójność postaci w Gemini 2.5 Flash Image zapewnia zupełnie nowe doświadczenie „Vibe Photoshoping”.

Jedna sekunda, by „uratować honor” programisty | Źródło zdjęcia: GeekPark

To doświadczenie przełamuje wcześniejsze wyobrażenia wielu osób o generowaniu obrazów przez AI – „magia”: jeśli prompt jest dobry, efekt jest znakomity; jeśli przeciętny, wynik może być zupełnie niezgodny z oczekiwaniami.

Jednak w Gemini 2.5 Flash Image zauważyłem, że ten „element magii” został znacznie ograniczony. Model lepiej rozumie prompt i jest bliższy intuicji użytkownika – dlatego wielu osobom wydaje się on znacznie bardziej użyteczny.

Na przykład powiedziałem: „rozmyj tło, podkreśl postać na pierwszym planie” – po kilku sekundach otrzymałem dokładnie taki efekt, jakiego chciałem; poprosiłem „zamień wyraz twarzy na uśmiechnięty” – nie tylko usta się uniosły, ale i spojrzenie zostało dostosowane, szczegóły były bardzo dopracowane; spróbowałem nawet „pokolorować czarno-białe zdjęcie” – wynikowy kolorowy obraz nie był przypadkowy, lecz jak najbardziej zbliżony do historycznej atmosfery zdjęcia.

Ta zdolność „mówisz – masz” przypomina mi korzystanie z MeituPic, gdzie chciałem tylko wygładzić skórę, a cała twarz zamieniała się w „poziom 10 upiększenia”. Teraz operacje Gemini 2.5 Flash Image są precyzyjne i powściągliwe – naprawdę rozumie, czego chcesz, i stara się to jak najlepiej odtworzyć.

02 Wzmocnione możliwości, trudno wrócić do starych narzędzi

Dla lepszego zobrazowania, porównałem ten model z moimi codziennymi narzędziami do edycji zdjęć na urządzeniach mobilnych.

W Snapseed, aby rozmyć tło, zwykle muszę przez minutę lub dwie ręcznie zaznaczać obszar pierwszego planu, a potem regulować poziom rozmycia. Nawet przy wprawie nie da się uniknąć poprawek.

W MeituPic, choć jest funkcja rozmycia tła jednym kliknięciem, często rozmywa też krawędzie postaci, przez co efekt nie jest naturalny.

W Gemini 2.5 Flash Image wystarczy jedno zdanie – model sam rozpoznaje granicę między postacią a tłem, efekt rozmycia jest naturalny i nie wymaga poprawek.

To porównanie pokazuje jedno: Gemini 2.5 Flash Image uwalnia użytkownika od skomplikowanych operacji, przekazując więcej pracy modelowi. Dla zwykłych ludzi obniża to próg edycji zdjęć, a dla profesjonalistów oszczędza mnóstwo czasu.

Po testach mam wrażenie, że Gemini 2.5 Flash Image to już nie tylko narzędzie do edycji zdjęć, ale raczej „inteligentny asystent”.

Dotychczas korzystaliśmy z MeituPic jako zestawu gotowych funkcji – filtrów, upiększania, mozaiki – każdy przycisk odpowiadał jednej funkcji. Trzeba było po kolei wybierać i dostosowywać, aż efekt był zadowalający.

Teraz logika Gemini 2.5 Flash Image jest zupełnie inna. Nie musisz już uczyć się obsługi narzędzia – wystarczy powiedzieć, czego chcesz, a model zrobi to za ciebie.

Ta zmiana wydaje się subtelna, ale w rzeczywistości całkowicie zmienia relację w procesie edycji zdjęć. Kiedyś to my dostosowywaliśmy się do narzędzia, teraz narzędzie dostosowuje się do nas. Taki sposób interakcji to zalążek nowej generacji aplikacji.

Patrząc z dzisiejszej perspektywy, Gemini 2.5 Flash Image jest jeszcze we wczesnej fazie i może mieć pewne ograniczenia funkcjonalne. Jednak jego szybkość, zdolność rozumienia i wierność odtworzenia wystarczają, by rozbudzić wyobraźnię o przyszłości.

Co by było, gdyby połączyć go z MeituPic? Może otwierasz aplikację, mówisz do telefonu: „popraw mi to zdjęcie, niech skóra wygląda naturalniej”, a po kilku sekundach masz gotowy efekt (UTC+8); może podczas podróży mówisz: „zmień pogodę na słoneczną”, a zdjęcie natychmiast staje się pełne słońca; a nawet w edycji wideo jednym zdaniem zmieniasz nastrój całego fragmentu.

Taki sposób może wkrótce stać się główną funkcją edycji obrazów w systemach operacyjnych smartfonów | Źródło zdjęcia: Twitter

Dlatego uważam, że ten model szybko zrewolucjonizuje obecne procesy w narzędziach do edycji zdjęć i zdefiniuje nową generację „MeituPic” – nie tylko jako narzędzie do edycji, ale jako nowy sposób interakcji z obrazami, gdzie AI staje się twoim partnerem w postprodukcji fotograficznej.

Jednak obecnie Gemini 2.5 Flash Image nie jest jeszcze gotowy, by być uniwersalną aplikacją do edycji zdjęć dla mas: nie tylko dlatego, że jego głównym celem nadal jest generowanie obrazów, a nie drobne poprawki, ale także dlatego, że każde zdjęcie stworzone lub edytowane przez Gemini 2.5 Flash Image zawiera cyfrowy znak wodny SynthID, służący do rozpoznawania treści generowanych przez AI na platformach społecznościowych.

03 Punkt zapalny hitu

Patrząc wstecz, MeituPic stał się aplikacją ogólnonarodową, ponieważ w najprostszy sposób rozwiązał problem, który wszyscy chcieli rozwiązać – sprawił, że zdjęcia wyglądały lepiej.

Gemini 2.5 Flash Image idzie o krok dalej – przekuwa złożone możliwości AI w doświadczenie „natychmiastowego generowania obrazu”, dostępne dla każdego.

Kiedy po raz pierwszy powiedziałem „rozmyj tło”, a po kilku sekundach obraz został naturalnie przetworzony, wiedziałem: to jest punkt zapalny hitowej aplikacji. To nie tylko model, ale podstawowa technologia dla niezliczonych przyszłych produktów.

Funkcja AI „jednym kliknięciem zmień niebo”, która kilka lat temu była hitem wśród użytkowników smartfonów | Źródło zdjęcia: społeczność vivo

Może za kilka lat zapomnimy o nazwie Banana, ale zobaczymy coraz więcej narzędzi do edycji obrazów, które pozwalają „powiedz, czego chcesz, a natychmiast to dostaniesz” – i być może, jak MeituPic, staną się wspomnieniem całego pokolenia użytkowników.

Tym razem jednak AI popchnie wyobraźnię jeszcze dalej.

Zastrzeżenie: Treść tego artykułu odzwierciedla wyłącznie opinię autora i nie reprezentuje platformy w żadnym charakterze. Niniejszy artykuł nie ma służyć jako punkt odniesienia przy podejmowaniu decyzji inwestycyjnych.

PoolX: Stakuj, aby zarabiać

Nawet ponad 10% APR. Zarabiaj więcej, stakując więcej.

Stakuj teraz!