字节跳动近期推出的视频生成模型Loopy引发广泛关注。Loopy基于Diffusion视频生成框架,能够通过输入一张图片和音频生成高保真的肖像视频,展现出呼吸、叹气等自然动作和情绪细节。Loopy引入了inter/intra-clip temporal layers模块,用以捕捉跨时间片段及单片段内的时序信息,并通过Temporal Segment Module强化对长时运动的捕捉。音频驱动生成时,Loopy使用了A2L模块,将音频、表情和运动参数转化为motion latents,实现细腻自然的人像表情生成。