HunyuanCustom: Tencent меняет правила видеогенерации

Революция в видеогенерации: HunyuanCustom от Tencent – больше, чем просто картинки

Искусственный интеллект продолжает переопределять творческие процессы, и видеогенерация – одна из самых горячих точек. Сегодняшний день ознаменован важным событием: компания Tencent представила HunyuanCustom – фреймворк, который поднимает планку качества и консистентности генерируемого видео на совершенно новый уровень. Это не просто набор алгоритмов, а комплексное решение, нацеленное на создание видеороликов, которые выглядят правдоподобно и связно, решая многие проблемы, с которыми сталкиваются существующие модели.

Консистентность – краеугольный камень реализма

Существующие инструменты видеогенерации часто страдают от ряда проблем: "прыгающие" лица, меняющийся фон, нечитаемый текст на упаковках. Это связано с тем, что генерация видео – это сложная задача, требующая не только создания отдельных кадров, но и обеспечения их согласованности во времени. HunyuanCustom решает эту проблему, фокусируясь на сохранении консистентности субъектов – будь то люди, животные или предметы. Представьте себе рекламу кроссовок, где модель обуви меняется в каждом кадре, или человека, лицо которого то исчезает, то появляется – это убивает любое доверие к ролику. HunyuanCustom позволяет избежать этих неприятностей, что критически важно для любых практических применений, от рекламы до кинопроизводства.

Как это работает: симбиоз LLaVA, 3D-VAE и AudioNet

В основе HunyuanCustom лежит несколько ключевых инноваций. Во-первых, модель использует улучшенный механизм слияния текста и изображений на базе LLaVA. Это позволяет системе глубоко понимать как текстовое описание, так и визуальные детали, что позволяет создавать видеоролики, которые точно соответствуют заданной концепции. Если вы загружаете фотографию женщины в платье и просите ее "танцевать под дождем", система не просто сгенерирует случайное видео с танцем – она учтет детали платья, освещение на фотографии и создаст реалистичное видео.

Но настоящая магия происходит благодаря модулю временной конкатенации, использующему 3D-VAE. Этот модуль "растягивает" особенности изображения во времени, что позволяет поддерживать консистентность объектов и фона на протяжении всего видео. Это именно то, что позволяет избежать "прыгающих" лиц и других артефактов, которые так раздражают в видеороликах, созданных другими моделями.

Отдельного внимания заслуживает работа с аудио. Модуль AudioNet, использующий пространственное кросс-внимание, выравнивает аудио- и видеофичи, обеспечивая точную синхронизацию движения губ и других действий с соответствующим звуком. Это добавляет еще один уровень реализма и делает видео более приятным для просмотра.

Замена объектов "на лету" и впечатляющие результаты

Не менее впечатляющая возможность HunyuanCustom – это возможность замены объектов в готовом видео. Например, вы можете легко подставить новую модель кроссовок в рекламный ролик, не затрагивая остальную часть видео. Модель сжимает исходное видео в латентное пространство, выравнивает его с шумными данными и встраивает изменения, минимизируя артефакты на границах. Это открывает огромные возможности для редактирования и кастомизации видеоконтента.

Тенцент провела экспериментальные тесты, и результаты говорят сами за себя. По ключевой метрике Face-Sim (сохранение идентичности лица) HunyuanCustom демонстрирует значительно лучшие показатели по сравнению с конкурентами, такими как Hailuo, Keling, Vidu, Pika и Skyreels. Эти цифры подтверждают, что HunyuanCustom действительно является прорывом в области видеогенерации.

Высокие требования к аппаратному обеспечению и открытый исходный код

К сожалению, HunyuanCustom не является "plug-and-play" решением для обычных пользователей. Для работы модели требуется не менее 24 ГБ видеопамяти для роликов 720p, а для раскрытия всех возможностей рекомендуется 80 ГБ VRAM. Это делает ее недоступной для многих потребителей, но, к счастью, код и чекпоинты модели уже доступны в открытом доступе. Разработчики предлагают примеры запуска как на нескольких GPU, так и в экономном режиме для потребительских видеокарт, что, безусловно, позволит сообществу исследователей и энтузиастов внести свой вклад в дальнейшее развитие HunyuanCustom.

Лицензирование кода осуществляется по Tencent Hunyuan Community License, что дает возможность использовать и модифицировать модель для некоммерческих целей.

Ссылки на проект:

HunyuanCustom от Tencent – это не просто еще одна модель видеогенерации. Это настоящий прорыв, который открывает новые горизонты для творчества и контент-производства. Несмотря на высокие требования к аппаратному обеспечению, открытый исходный код и активное сообщество разработчиков обещают сделать эту технологию доступной для широкого круга пользователей, что, безусловно, повлияет на будущее видеопроизводства. Я с нетерпением жду, чтобы увидеть, что создадут люди, используя этот мощный инструмент.

HunyuanCustom: Революция в видеогенерации от Tencent Tencent представила HunyuanCustom – инновацион... ver 0
Ширина: 1280 px
Высота: 640 px
Соотношение сторон.: 2:1

Скачать

HunyuanCustom: Революция в видеогенерации от Tencent Tencent представила HunyuanCustom – инновацион... ver 1
Ширина: 2560 px
Высота: 1418 px
Соотношение сторон.: 1280:709

Скачать