Перейти до вмісту

techterritory.net

Меню
  • Статті
  • Штучний інтелект
  • Наука і космос
  • Ігри
  • Крипто
  • Авто
  • Гаджети
  • Бізнес
  • Кібербезпека
Меню
A diagram of the Voyager world creation pipeline.

Новий штучний інтелект трансформує фотографії в досліджувані 3D-світи з певними обмеженнями

Оприлюднено 7 Вересня, 2025

Навчання з автоматизованим даними

Voyager є продовженням попереднього проекту Tencent, відомого як HunyuanWorld 1.0, який був випущений у липні. Voyager також входить до ширшої екосистеми “Hunyuan”, котра включає модель Hunyuan3D-2 для генерації тексту в 3D та раніше обговорювану HunyuanVideo для синтезу відео.

Для навчання Voyager дослідники розробили програмне забезпечення, яке автоматично аналізує наявні відео, обробляючи рухи камери та обчислюючи глибину для кожного кадру—це виключає необхідність ручного маркування тисяч годин матеріалу. Система обробила понад 100 000 відеофрагментів як з реальних записів, так і з рендерів Unreal Engine.

Діаграма процесу створення світу Voyager.


Джерело:

Tencent


Модель вимагає значних обчислювальних ресурсів, вимагаючи щонайменше 60 ГБ пам’яті GPU для роздільної здатності 540p, хоча Tencent рекомендує 80 ГБ для кращих результатів. Tencent опублікував ваги моделі на Hugging Face і включив код, що працює як в однопроцесорних, так і в багатопроцесорних конфігураціях.

Модель має суттєві ліцензійні обмеження. Як і інші моделі Hunyuan від Tencent, ліцензія забороняє використання в Європейському Союзі, Великій Британії та Південній Кореї. Крім того, комерційні впровадження для понад 100 мільйонів активних користувачів на місяць потребують окремої ліцензії від Tencent.

На бенчмарку WorldScore, розробленому дослідниками Стенфордського університету, Voyager отримала найвищу загальну оцінку 77.62, у порівнянні з 72.69 для WonderWorld і 62.15 для CogVideoX-I2V. Модель показала хороший результат у контрольованості об’єктів (66.92), узгодженості стилю (84.89) і суб’єктивної якості (71.09), хоча в контролі камери (85.95) зайняла друге місце після WonderWorld з 92.98. WorldScore оцінює підходи до генерації світів за кількома критеріями, включаючи 3D-консистентність і відповідність змісту.

Хоча ці самозвітні результати бенчмарків виглядають обнадійливо, широке застосування все ще стикається з викликами через потребу в потужних обчислювальних ресурсах. Для розробників, що потребують швидшої обробки, система підтримує паралельне інференцію через кілька GPU за допомогою фреймворка xDiT. Використання восьми GPU дозволяє досягати швидкостей обробки, що в 6.69 разів перевищують показники однографічних налаштувань.

Зважаючи на необхідну обчислювальну потужність і обмеження у генерації тривалих, зв’язних “світів”, може пройти певний час, перш ніж ми зможемо бачити інтерактивні досвіди в реальному часі з використанням подібних технологій. Але, як показали експерименти, такі як проект Google Genie, ми, можливо, стаємо свідками перших кроків у новій формі інтерактивного генеративного мистецтва.

Останні дописи

  • Путін: “Безсмертя” на порозі завдяки безперервній трансплантації органів
  • Новий штучний інтелект трансформує фотографії в досліджувані 3D-світи з певними обмеженнями
  • Hollow Knight: Silksong Вражає Steam
  • Паузу в місіях Falcon Heavy використають для будівництва нових майданчиків приземлення SpaceX
  • OnePlus та Hasselblad завершують співпрацю

Останні коментарі

Немає коментарів до показу.
    ©2025 techterritory.net | Дизайн: Тема Newspaperly WordPress