Google покращує редагування зображень у Gemini AI за допомогою моделі "нано банан

Нещодавно у сфері редагування зображень за допомогою штучного інтелекту відбулася цікава подія. Новий модель, відома як “нано-банан”, почала привертати увагу своєю вражаючою продуктивністю, що дозволило їй опинитися на вершині рейтингу LMArena. Тепер Google повідомила, що нано-банан є новинкою від Google DeepMind, і сьогодні вона стає доступною в додатку Gemini.

Редагування зображень з використанням штучного інтелекту дозволяє змінювати зображення за допомогою текстового запиту, замість того щоб працювати у Photoshop. Раніше цього року Google вперше презентувала можливості редагування в Gemini, і модель тоді показала максимально задовільні результати. Однак, як і всі генеративні системи, її недетермінований характер означав, що елементи зображення часто змінювалися непередбачуваним чином. Google стверджує, що нано-банан (технічно Gemini 2.5 Flash Image) має безпрецедентну стабільність у редагуванні — модель насправді може пам’ятати деталі, а не просто випадково змінювати їх під час кожного редагування.

Google повідомляє, що персонажі зберігатимуть свій вигляд під час редагування.

Це відкриває кілька цікавих можливостей для редагування зображень за допомогою штучного інтелекту. Google пропонує завантажити фотографію людини і змінити її стиль чи одяг. Наприклад, ви можете уявити когось у вигляді матадора або персонажа з ситкому 90-х. Оскільки модель нано-банан може зберігати послідовність під час редагування, результати все ще повинні нагадувати людину на первісному зображенні. Це також справедливо у випадку, коли ви виконуєте кілька редагувань підряд. Google говорить, що в подальшому результати все ще повинні виглядати як оригінал.