Компанія Google анонсувала нову мультимодальну модель штучного інтелекту Gemini 2.0 Flash. Вона пропонує розширені можливості генерації тексту, зображень і аудіо.
Ключові переваги Gemini 2.0 Flash
Gemini 2.0 Flash дозволяє створювати текст, зображення та аудіо, а також використовувати сторонні програми та API. Зокрема, модель може підключатися до Пошуку Google, виконувати код і взаємодіяти з іншими службами.
У компанії Google зазначають, що ця модель є вдвічі швидшою за попередню версію – Gemini 1.5 Pro. Вона також здатна змінювати згенеровані зображення, працювати з відео та аудіо, відповідаючи на запитання про них.
Однією з ключових функцій є генерація аудіо, що включає настроювані голоси з підтримкою різних мов та акцентів. Наприклад, модель може читати текст голосом пірата або розмовляти повільніше чи швидше за запитом користувача.
Google використовує технологію SynthID для водяних знаків на всіх створених аудіо- та візуальних матеріалах. Це спрямовано на боротьбу зі зловживаннями, такими як створення дипфейків, кількість яких у світі зросла в чотири рази з 2023 по 2024 роки.
Експериментальна версія моделі вже доступна через Gemini API та платформи AI Studio й Vertex AI. Однак можливості створення зображень і аудіо наразі доступні лише для обраних партнерів із раннім доступом. Масштабне впровадження цих функцій очікується в січні.