Навчання з автоматизованим даними
Voyager є продовженням попереднього проекту Tencent, відомого як HunyuanWorld 1.0, який був випущений у липні. Voyager також входить до ширшої екосистеми “Hunyuan”, котра включає модель Hunyuan3D-2 для генерації тексту в 3D та раніше обговорювану HunyuanVideo для синтезу відео.
Для навчання Voyager дослідники розробили програмне забезпечення, яке автоматично аналізує наявні відео, обробляючи рухи камери та обчислюючи глибину для кожного кадру—це виключає необхідність ручного маркування тисяч годин матеріалу. Система обробила понад 100 000 відеофрагментів як з реальних записів, так і з рендерів Unreal Engine.
Модель вимагає значних обчислювальних ресурсів, вимагаючи щонайменше 60 ГБ пам’яті GPU для роздільної здатності 540p, хоча Tencent рекомендує 80 ГБ для кращих результатів. Tencent опублікував ваги моделі на Hugging Face і включив код, що працює як в однопроцесорних, так і в багатопроцесорних конфігураціях.
Модель має суттєві ліцензійні обмеження. Як і інші моделі Hunyuan від Tencent, ліцензія забороняє використання в Європейському Союзі, Великій Британії та Південній Кореї. Крім того, комерційні впровадження для понад 100 мільйонів активних користувачів на місяць потребують окремої ліцензії від Tencent.
На бенчмарку WorldScore, розробленому дослідниками Стенфордського університету, Voyager отримала найвищу загальну оцінку 77.62, у порівнянні з 72.69 для WonderWorld і 62.15 для CogVideoX-I2V. Модель показала хороший результат у контрольованості об’єктів (66.92), узгодженості стилю (84.89) і суб’єктивної якості (71.09), хоча в контролі камери (85.95) зайняла друге місце після WonderWorld з 92.98. WorldScore оцінює підходи до генерації світів за кількома критеріями, включаючи 3D-консистентність і відповідність змісту.
Хоча ці самозвітні результати бенчмарків виглядають обнадійливо, широке застосування все ще стикається з викликами через потребу в потужних обчислювальних ресурсах. Для розробників, що потребують швидшої обробки, система підтримує паралельне інференцію через кілька GPU за допомогою фреймворка xDiT. Використання восьми GPU дозволяє досягати швидкостей обробки, що в 6.69 разів перевищують показники однографічних налаштувань.
Зважаючи на необхідну обчислювальну потужність і обмеження у генерації тривалих, зв’язних “світів”, може пройти певний час, перш ніж ми зможемо бачити інтерактивні досвіди в реальному часі з використанням подібних технологій. Але, як показали експерименти, такі як проект Google Genie, ми, можливо, стаємо свідками перших кроків у новій формі інтерактивного генеративного мистецтва.