Baidu конкуруватиме з Google завдяки своїй моделі AI-Відео з підтримкою аудіо: звіт

Компанія Baidu нібито представила нову модель штучного інтелекту (ШІ) для генерації відео. Згідно з інформацією, модель MuseStreamer має можливість інтегрувати китайський аудіосупровід у створених відео, ставши другою такою моделлю після Veo 3 від Google. Це перший у світі ШІ, який підтримує рідну генерацію аудіо китайською мовою. Поряд із запуском великої мовної моделі (LLM), компанія також презентувала нову платформу для створення відео під назвою HuiXiang. Варто зазначити, що наразі MuseStreamer та HuiXiang недоступні за межами Китаю.

MuseStreamer від Baidu: Генерація китайського аудіо

Світ моделей генерації відео на основі ШІ значно змінився за останні два роки. Ми перейшли від моделей, які мали труднощі із створенням людей з фіксованою кількістю пальців, до LLM, які здатні точно відтворювати реалістичну фізику та рух. Проте одна з сфер, в яку більшість учасників ринку ШІ поки не заходила, — це відео з рідною підтримкою аудіо.

На конференції Google I/O 2025, технологічний гігант став першим, хто запропонував цю можливість з Veo 3, що відразу ж привернуло увагу і залишило позаду найближчого конкурента, Sora від OpenAI. Нещодавно компанія розширила доступ до Veo 3 на всю територію 154 країн, де доступний додаток Gemini, що свідчить про агресивний підхід компанії до цього інструменту.

Однак, згідно з доповіддю Tech in Asia (посилаючись на AI Base), китайська технологічна компанія Baidu також увійшла в гонку зі своєю моделлю MuseStream. Кажуть, що вона може створювати відео з китайським аудіо і є єдиною моделлю з такою можливістю. На відміну від цього, Veo 3 може створювати аудіо лише англійською мовою.

MuseStreamer, як стверджується, може не лише генерувати діалоги, синхронізовані з відео, але й додавати звукові ефекти та фонові шуми до відео. Baidu заявила, що модель досягла оцінки 89.38 відсотка за показником VBench I2V, займаючи перше місце. Технологічний гігант позиціонує цю LLM як інструмент для створення контенту для споживачів.

Разом із моделью ШІ Baidu також запустила нову платформу для створення відео під назвою HuiXiang. HuiXiang слугує інтерфейсом для моделі ШІ, де користувачі можуть ділитися запитами та генерувати відео. Відповідно до доповіді, платформа підтримує генерацію відео тривалістю 10 секунд із роздільною здатністю 1080p. Для порівняння, Veo 3 може створювати лише відео тривалістю вісім секунд. Відсутні чіткі дані про стандартне співвідношення сторін відео та чи можуть користувачі створювати відео в інших співвідношеннях сторін.