Bit News Meta недавно анонсировала фреймворк искусственного интеллекта под названием audio2photoreal, который способен генерировать серию реалистичных моделей персонажей NPC и автоматически «синхронизировать губы» и «позировать» модели персонажей с помощью существующих файлов закадрового голоса.
В официальном отчете об исследовании указывалось, что после получения файла дубляжа фотореалистичный фреймворк Audio2 сначала сгенерирует серию моделей NPC, а затем будет использовать технологию квантования и алгоритм диффузии для генерации модельных действий, в которых технология квантования обеспечивает эталон образца действий для фреймворка, а алгоритм диффузии используется для улучшения эффекта действий персонажей, генерируемых кадром.
Сорок три процента оценщиков в контролируемом эксперименте были «полностью удовлетворены» сценами диалогов персонажей, сгенерированными кадром, поэтому исследователи посчитали, что фотореалистичная структура Audio2 способна генерировать «более динамичные и выразительные» движения, чем конкурирующие продукты в отрасли. Сообщается, что исследовательская группа теперь выложила соответствующий код и набор данных в открытый доступ на GitHub.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Meta анонсировала фреймворк audio2photoreal AI, который может генерировать сцены диалогов персонажей, вводя файлы дубляжа
Bit News Meta недавно анонсировала фреймворк искусственного интеллекта под названием audio2photoreal, который способен генерировать серию реалистичных моделей персонажей NPC и автоматически «синхронизировать губы» и «позировать» модели персонажей с помощью существующих файлов закадрового голоса.
В официальном отчете об исследовании указывалось, что после получения файла дубляжа фотореалистичный фреймворк Audio2 сначала сгенерирует серию моделей NPC, а затем будет использовать технологию квантования и алгоритм диффузии для генерации модельных действий, в которых технология квантования обеспечивает эталон образца действий для фреймворка, а алгоритм диффузии используется для улучшения эффекта действий персонажей, генерируемых кадром.
Сорок три процента оценщиков в контролируемом эксперименте были «полностью удовлетворены» сценами диалогов персонажей, сгенерированными кадром, поэтому исследователи посчитали, что фотореалистичная структура Audio2 способна генерировать «более динамичные и выразительные» движения, чем конкурирующие продукты в отрасли. Сообщается, что исследовательская группа теперь выложила соответствующий код и набор данных в открытый доступ на GitHub.