开源学术演讲录像是一种普遍流行的在线分享学术知识的方法。这些视频包含丰富的多模态信息,包括演讲者的语音、面部表情和身体动作,幻灯片中的文本和图片,和对应的论文文本信息。目前很少有数据集能够同时支持多模态内容识别和理解任务,部分原因是缺乏高质量的人工标注。该工作提出了一个新的多模态、多类型、多用途的视听学术演讲数据集(M3AV),它包含来自五个来源的近 367 小时的视频,涵盖计算机科学、数学、医学和生物学主题。凭借高质量的人工标注,特别是高价值的命名实体,数据集可以用于多种视听识别和理解任务。在上下文语音识别、语音合成以及幻灯片和脚本生成任务上进行的评估表明,M3AV 的多样性使其成为一个具有挑战性的数据集。目前该工作已被 ACL 2024 主会接收。