奇绩大模型日报（5月 11-12日）

用户150

用户1188

用户5537

用户4513

用户887

2024年5月12日修改

资讯

百万tokens低至1元！大模型越来越卷了

https://mp.weixin.qq.com/s/42hA4Ggzu_p4Iqk8yr4VAQ

在刚刚举行的 ICLR 2024 大会上，智谱AI的大模型技术团队公布了面向激动人心的AGI通用人工智能前景的三大技术趋势，同时预告了GLM的后续升级版本。今天，智谱大模型开放平台（bigmodel.cn）上线了新的价格体系。入门级产品 GLM-3 Turbo 模型调用价格下调80%！从5元/百万tokens降至1元/百万tokens。1元可以购买100万tokens。调整后，使用GLM-3 Turbo创作一万条小红书文案（以350字计）将仅需约1元钱，足以让更多企业和个人都能用上这款入门级产品。​

50%

common.docs_name - LarkCCM_Docs_Menu_Image

50%

人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈论文​

https://mp.weixin.qq.com/s/ulVGoBkCtFyV_mwSBdzgQg

Richard Sutton在 「The Bitter Lesson」中做过这样的评价：「从70年的人工智能研究中可以得出的最重要教训是，那些利用计算的通用方法最终是最有效的，而且优势巨大。」自我博弈（self play）就是这样一种同时利用搜索和学习从而充分利用和扩大计算规模的方法。今年年初，加利福尼亚大学洛杉矶分校（UCLA）的顾全全教授团队提出了一种自我博弈微调方法 (Self-Play Fine-Tuning, SPIN)，可不使用额外微调数据，仅靠自我博弈就能大幅提升 LLM 的能力。最近，顾全全教授团队和卡内基梅隆大学（CMU）Yiming Yang教授团队合作开发了一种名为「自我博弈偏好优化（Self-Play Preference Optimization, SPPO）」的对齐技术，这一新方法旨在通过自我博弈的框架来优化大语言模型的行为，使其更好地符合人类的偏好。左右互搏再显神通！​

50%

DiT架构大一统：一个框架集成图像、视频、音频和3D生成，可编辑、能试玩​

https://mp.weixin.qq.com/s/NwwbaeRujh-02V6LRs5zMg

今年 2 月初，Sora 的发布让 AI 社区更加看到了基础扩散模型的潜力。连同以往出现的 Stable Diffusion、PixArt-α 和 PixArt-Σ，这些模型在生成真实图像和视频方面取得了显著的成功。这意味着开始了从经典 U-Net 架构到基于 Transformer 的扩散主干架构的范式转变。值得注意的是，通过这种改进的架构，Sora 和 Stable Diffusion 3 可以生成任意分辨率的样本，并表现出对 scaling 定律的严格遵守，即增加参数大小可以实现更好的结果。 不过，推出者们只对自家模型的设计选择提供有限的指导，并且缺乏详细的实现说明和公开的预训练检查点，限制了它们在社区使用和复刻方面的效用。并且，这些方法是针对特定任务（例如图像或视频生成任务）量身定制的，这阻碍了潜在的跨模态适应性。为了弥补这些差距，上海 AI Lab、港中文和英伟达的研究者联合推出了 Lumina-T2X 系列模型，通过基于流（Flow-based）的大型扩散 Transformers（Flag-DiT）打造，旨在将噪声转换为图像、视频、多视图 3D 对象和基于文本描述的音频。其中，Lumina-T2X 系列中最大的模型包括具有 70 亿参数的 Flag-DiT 和一个多模态大语言模型 SPHINX。SPHINX 是一个文本编码器，它具有 130 亿参数，能够处理 128K tokens。​

50%

从零开始手搓GPU，照着英伟达CUDA来，只用两个星期

https://mp.weixin.qq.com/s/gDWQGs4MyVWqsmONdEqvpQ

总有人说老黄的芯片供不应求，大家恨不得去手搓 GPU，现在真的有人试了。近日，美国一家 web3 开发公司的创始工程师之一 Adam Majmudar 分享了他「手搓 GPU」成功的经历，引发了网友们的一大片点赞。令人惊讶的是，他仅用两周时间就完成了这一脑力壮举。在 Twitter/X 的主题帖子中，Majmudar 进行了直播，一步步带我们回顾了整个过程。​

50%

Flash Attention稳定吗？Meta、哈佛发现其模型权重偏差呈现数量级波动​

https://mp.weixin.qq.com/s/sG3JaZR1isZApWP6ZkYe6Q

众所周知，大语言模型的训练常常需要数月的时间，使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例，其训练总共需要 1,720,320 GPU hours。由于这些工作负载的规模和复杂性，导致训练大模型存在着独特的系统性挑战。最近，许多机构在训练 SOTA生成式 AI 模型时报告了训练过程中的不稳定情况，它们通常以损失尖峰的形式出现，比如谷歌的 PaLM 模型训练过程中出现了多达 20 次的损失尖峰。数值偏差是造成这种训练不稳定性的潜在原因，由于大语言模型训练运行成本极高，如何量化数值偏差俨然成为关键问题。在最新的一项工作中，来自 Meta、哈佛大学的研究者开发了一个原则性定量方法来理解训练优化中的数值偏差，以此评估不同的最新优化技术，并确定它们在用于训练大模型时是否可能引入意外的不稳定性。​

50%

博弈论让 AI 更加正确、高效，LLM 与自己竞争

https://mp.weixin.qq.com/s/gMUE2eg_B_jl5wCZpQlvjw

想象一下，你有一位朋友对同一问题给出了不同的答案，具体取决于你提问的方式。「秘鲁的首都是哪里？」会得到一个答案；「利马是秘鲁的首都吗？」 会得到另一个。你可能会有点担心你朋友的智力，而且你几乎很难相信他们给出的任何答案。这正是许多大型语言模型 (LLM) 正在发生的事，这些超强大的机器学习工具为 ChatGPT和其他人工智能奇迹提供了动力。开放式的生成性问题会产生一个答案，而涉及必须在选项之间进行选择的判别性问题，通常会产生不同的答案。麻省理工学院的博士生 Athul Paul Jacob 表示：「当同一个问题的措辞不同时，就会出现脱节。」为了使语言模型的答案更加一致，并使模型整体更加可靠，Jacob 和他的同事设计了一个游戏，在这个游戏中，模型的两种模式被驱使着去寻找他们能达成一致的答案。这个简单的程序被称为共识博弈（consensus game），让 LLM 与自己竞争，使用博弈论工具来提高模型的准确性和内部一致性。​

50%

奇绩大模型日报（5月 11-12日） ​

奇绩大模型日报（5月 11-12日）