Google Research介绍了一款名为VideoPoet的大型语言模型,旨在解决视频生成领域的挑战,特别是在生成连贯的大型动作方面。VideoPoet能够执行多种视频生成任务,包括文本到视频、图像到视频、视频风格化、视频内外填充(inpainting和outpainting)以及视频到音频转换。其特色在于将多种视频生成能力整合到一个单一的大型语言模型中,而非依赖于针对每个任务单独训练的组件。
VideoPoet使用自回归语言模型,通过多种标记器(tokenizers)跨视频、图像、音频和文本模态进行学习。这些标记器将视频和音频剪辑编码为离散令牌序列,然后可以转换回原始表示。模型生成的示例包括根据文本提示生成的视频,例如将输入的图像配合文本提示动画化,或者将视频通过文本指导进行风格化处理。
此外,VideoPoet还能生成音频,并能从单一模型生成视频和音频。模型还能生成较长视频,通过连续链接视频片段,保持对象的外观即使在多次迭代中也保持一致。用户还可以交互式编辑由VideoPoet生成的视频剪辑,改变对象的动作,提供高度的编辑控制。模型还能根据文本提示将动作应用于输入图像,以达到所需状态,并准确控制相机动作。
VideoPoet在文本到视频生成方面进行了评估,与其他方法进行了比较。在文本忠实度和运动趣味性方面,VideoPoet获得了较高的用户偏好评分。通过VideoPoet,Google Research展示了大型语言模型在多种任务上的高竞争力视频生成质量,尤其是在生成有趣和高质量动作的视频方面。未来,该框架将支持“任何到任何”的生成,例如扩展到文本到音频、音频到视频和视频字幕等多种功能。
本文来自投稿,不代表TePhone特锋手机网立场,如若转载,请注明出处:https://www.tephone.com/article/3036