Midjourney презентує генератор відео на основі штучного інтелекту

Midjourney випустила першу версію своєї моделі генерації відео для широкого загалу. Наразі цей інструмент може створювати короткі відео на основі завантажених або створених на платформі зображень, проте в подальшому компанія планує додати більше функцій.

Після створення зображення за допомогою Midjourney, служба відображає нову кнопку «анімувати», натискаючи яку користувач може отримати 5-секундний кліп на основі текстового запиту. Крім того, є можливість додати зображення, яке ви завантажили, як «початковий кадр» для відео. За замовчуванням інструмент генерує загальний запит, який просто «надає руху» зображенню, але кнопка «вручну» дозволяє користувачам описувати, як вони хочуть, щоб виглядав рух.

Користувачі можуть подовжувати анімацію до чотирьох секунд до чотирьох разів, що дає в результаті відео тривалістю 21 секунду. Також передбачені високі та низькі налаштування руху, які визначають, чи рухаються і об’єкт, і камера, чи лише об’єкт.

Генератор відео від Midjourney наразі доступний тільки на вебсайті компанії та через сервер Discord. Для його використання потрібна підписка на сервіс, яка починається з 10 доларів США на місяць за 3,3 години «швидкого» часу GPU (приблизно 200 генерацій зображень). Компанія зазначає, що вартість генерації відео буде у 8 разів вищою, ніж генерація зображень, що складає орієнтовно «вартість одного зображення» за секунду відео.

Нагадаємо, що Midjourney наразі є об’єктом судового позову від Disney та Universal, які висловили занепокоєння з приводу запуску генератора відео. Вони стверджують, що Midjourney діє як «віртуальний автомат», створюючи нескінченну кількість несанкціонованих копій захищених авторським правом творів Disney та Universal. Перша ідея щодо моделі генерації відео була оголошена ще в січні, а Disney та Universal заперечують, що процес навчання моделі свідчить про те, що «Midjourney, ймовірно, вже порушує авторські права позивачів».

У пості, що оголошує про генератор, засновник Midjourney Девід Хольц зазначив, що ця перша версія є лише «першим кроком» на шляху до створення «моделей, здатних до симуляцій в реальному часі у відкритому світі». Також Google, OpenAI та Meta запустили власні генератори відео, які здатні створювати відео на основі текстових запитів.