MPR | 多模态方向观察：图像视频与3D生成

用户150

用户1653

2024年8月26日修改

“多模态背后的Backbone会长成什么样？

各种模态到梯度下降到最后会不会都差不多？

Sora是不是已经被追上了？

我们真的把视频数据都用好了吗？”

Manifesto

多模态、3D和视频生成是三个相关但又各自独立的领域，它们在技术和应用层面上有所交叉。​

1.
多模态（Multimodality）：​
◦
多模态技术指的是结合多种感官输入或输出的方式，例如视觉、听觉、触觉等。在人工智能领域，多模态通常指的是结合不同类型数据的分析和处理，如文本、图像、声音等。​
◦
多模态学习是人工智能的一个重要分支，它涉及到理解和生成能够同时处理多种数据类型的模型。​

2.
3D（三维）生成​
◦
3D技术涉及到创建和操作三维空间中的物体和场景。这包括3D建模、3D打印、3D动画和3D渲染等。在计算机图形学中，3D技术是创建逼真视觉效果的基础，广泛应用于电影、游戏和虚拟现实等领域。​

3.
视频生成：​
◦
视频生成指的是使用计算机算法来创建视频内容的过程。可以是简单的动画，也可以是复杂场景和角色模拟。​
◦
视频生成技术可以结合3D建模来创建三维动画，也可以使用机器学习模型来生成逼真的视频内容。​

随着技术的发展，这三个领域正在不断融合，创造出新的应用和体验。​

•
多模态与3D：在3D内容的创建和展示中，多模态技术可以增强用户体验。例如，通过结合视觉和听觉元素，可以创建更加沉浸式的3D环境。​

•
多模态与视频生成：视频本身就是一种多模态媒介，因为它结合了视觉和听觉信息。多模态技术可以帮助视频生成算法更好地理解和模拟现实世界的场景。​

奇绩行研组与校友进行调研和讨论。希望可以回答如下几个问题：​

•
多模态工程化的工具和平台有哪些？​

•
多模态方向3D/视频生成产品形式？​

•
未来技术、产品、商业的机会/挑战方向？​

60%

common.docs_name - LarkCCM_Docs_Menu_Image

40%

一、多模态研究综述：浩瀚学术中的知识拼图🧩

跨模态生成

用户7194

本章将跨模态生成简要的分为图像生成和视频生成两个方向进行讨论​

图像生成

在图像生成领域，早期较为流行的模型架构为GAN (Generative Adversarial Network)，模型通过Generator和Discriminator两个模块互相“竞争”来进行图像生成：Generator尝试生成尽可能真实的图像从而“骗过”Discriminator；Discriminator则尝试对真实图像和生成图像进行分类，以“识破”Generator的生成。​

在GAN系列工作中，较为知名的工作包括CycleGAN, StyleGAN等。StyleGAN可以生成高分辨率的人脸图像，是GAN后期（可能）最为流行的模型架构。​

MPR | 多模态方向观察：图像视频与3D生成​

MPR | 多模态方向观察：图像视频与3D生成