奇绩大模型日报（6月 17日）

用户150

用户5537

用户1188

用户5247

用户4513

用户8534

2024年6月18日修改

资讯

吴恩达最新 Snowflake DevDay 演讲：除了下一代基础模型，Agent 工作流如何推动更多 AI 进步？​

https://mp.weixin.qq.com/s/-z9OC1wX1fFFNiBT2bpTTA

近日，斯坦福大学教授、Landing AI 创始人&CEO 吴恩达（Andrew NG）在 Snowflake Dev Day 上与 Snowflake CEO Sridhar Ramaswamy 展开了一场对谈与演讲。​

50%

common.docs_name - LarkCCM_Docs_Menu_Image

50%

抖音联合博纳出品 AIGC 科幻短剧集《三星堆：未来启示录》，即梦 AI 提供首席技术支持​

https://www.myzaker.com/article/666fe41b8e9f09520305351f

6 月 17 日，上海国际电影节期间，由博纳影业 AIGMS 制作中心出品制作，抖音联合出品的 AIGC 科幻短剧集《三星堆：未来启示录》亮相 " 博纳 25 周年‘向新而生’发布会 "。作为首席技术支持，即梦 AI 为该剧提供生成式人工智能技术支持。该剧第一季共 12 集，由抖音联合出品，将在抖音短剧暑期档播出。此次合作是传统影视公司与 AIGC 视频产品首次联合开发 AIGC 科幻短剧集。​

50%

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D​

https://mp.weixin.qq.com/s/y2uVCgy0ywSlsF860Byt3g

2024 年 5 月，DreamTech 官宣了其高质量 3D 生成大模型 Direct3D，并公开了相关学术论文 Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer。​

50%

大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4

https://mp.weixin.qq.com/s/g2w7Rn7Q0mtz9xTPX-Q0Mw

这几天，17 岁中专生姜萍在 2024 阿里巴巴全球数学竞赛预选赛中取得全球第 12 名的新闻刷了屏。而同时，AI 挑战赛的成绩显示，在所有 563 支 AI 参赛队伍中，最高分 34 分，平均分 18 分，赶上了人类选手平均水平。AI 参与数学竞赛的主要短板是逻辑推理能力弱，证明题很难拿到完整得分点。这也是 GPT-4、LLaMA等当前大语言模型（LLM）在需要策略和逻辑推理的任务中面临的重大挑战。其中的一大障碍是输出的准确性和可信度，尤其是在需要保证精度的数学上下文中，LLM 在推理时往往容易产生幻觉。输出结果表面上看似合理，但实际上不相关或事实不正确，最终导致不合理的推理过程。虽然像 Self-Refine 这样的重写技术有助于缓解这种倾向，但依然可能导致现实世界复杂的数学问题产生误导性或错误的结果。因此，为了应对这些挑战，来自复旦大学、上海 AI Lab 的研究者提出了 MCT Self-Refine（MCTSr），将 LLM 与蒙特卡洛树搜索（MCTS）算法相结合，并重点提高 LLM 在复杂数学推理任务（比如奥数竞赛题）中的表现。作为一种决策工具，MCTS广泛应用于人工智能中需要战略规划的场景，通常用于游戏和复杂的问题解决环境。本文通过将 MCTS 的系统探索能力与 LLM 的 Self-Refine 和 Self-Evaluation 能力相结合， 旨在创建一个更强大的框架来应对当前 LLM 难以解决的复杂推理任务。​

50%

字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果​

https://mp.weixin.qq.com/s/CkfSefskLPJwT8-JnBSWcg

当前主流的视觉语言模型（VLM）主要基于大语言模型（LLM）进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间，然后使用自回归方式根据图像 token 预测答案。在这个过程中，模态的对齐是通过文本 token 隐式实现的，如何做好这一步的对齐非常关键。针对这一问题，武汉大学、字节跳动豆包大模型团队和中国科学院大学的研究人员提出了一种基于对比学习的文本 token 筛选方法（CAL），从文本中筛选出与图像高度相关的 token，并加大其损失函数权重，从而实现更精准的多模态对齐。​

50%

奇绩大模型日报（6月 17日） ​

奇绩大模型日报（6月 17日）