奇绩大模型日报（10月 8日）

用户150

用户1188

用户5537

用户8534

用户6068

用户3980

2024年10月9日修改

🔉潜空间活动报名

🎉

潜空间系列活动重磅回归！

本期活动将在10月13日 10:00开始，我们邀请到的嘉宾是朱亦博，他将在潜空间上海场进行分享。阶跃星辰（StepFun）系统负责人，曾任字节跳动 AI 基础设施负责人。朱亦博在大规模数据处理和人工智能算法优化方面有着深厚的背景和丰富的经验。阶跃星辰专注于通用大模型的研发，发布了 Step 系列通用大模型，包括千亿参数的语言大模型和多模态大模型，以及万亿参数的 MoE 语言大模型预览版。他将带来《从模型到集群硬件，关于全栈式 AI Infra 设计与搭建的思考的分享。​

除嘉宾分享外，每期设置了【匹配合伙人 Cofounder Matching】环节。你可以和 GenAI 时代最有活力的创业者和研究者线下面对面交流，将有机会找到志同道合、有共同创业梦想的小伙伴。​

报名通道已开启，欢迎扫描下方二维码报名。

common.docs_name - LarkCCM_Docs_Menu_Image

资讯

诺贝尔物理学奖破天荒颁给「AI教父」！Hinton成首位图灵奖诺贝尔物理学奖双料得主​

2024年的诺贝尔物理学奖，花落John Hopfield和Geoffrey Hinton，理由是运用物理学原理训练人工神经网络。委员会宣布获奖名单时，所有人倒吸一口冷气。现在，网友已经炸锅了。​

两人获得诺贝尔物理学奖的理由是，他们使用物理学工具训练了人工神经网络，这些方法是当今强大机器学习的基础。他们的工作，让如今的深度神经网络和深度学习得以诞生。​

50%

COLM奖项公布：被ICLR拒稿的Mamba入选杰出论文

2023年，为了更好地探索语言模型领域，一批知名青年学者发起了COLM（Conference on Language Modeling）会议，旨在创建一个专注语言模型研究、改进和交流的学术平台。今年，COLM公布了2024年杰出论文奖，共有4篇论文获奖，其中引起广泛关注的包括Mamba模型。​

Mamba模型的研究解决了Transformer在长序列处理中的效率问题。Mamba通过将状态空间模型（SSM）参数化为输入函数，根据当前token选择性传播或遗忘信息，实现了线性时间序列建模。Mamba在语言、音频、基因组学等多种模态中达到SOTA水平，并在语言建模中表现优于同规模Transformer模型。该模型的硬件感知算法将SSM与Transformer的MLP块融合，形成同质架构，能够支持百万token长度的推理，提升5倍推理吞吐量，并能与两倍规模的Transformer模型媲美。​

另一篇获奖论文“Dated Data: Tracing Knowledge Cutoffs in Large Language Models“研究了LLM的“有效截止日期”问题，提出了一种无需访问预训练数据的方法来估计不同数据集的实际有效时间点，并揭示了数据版本错位与重复数据处理导致的知识偏移问题。​

第三篇论文“AI-generated text boundary detection with RoFT”提出了在文本中检测人类与AI生成部分的边界。通过测试不同边界检测算法，作者发现基于困惑度的检测方法在处理跨领域数据时更为鲁棒，指出了现有检测方法在处理特定文本特征时的局限性。​

最后一篇获奖论文“Auxiliary task demands mask the capabilities of smaller language models”探讨了任务需求对小型语言模型能力评估的影响。实验表明，任务复杂度越高，小型模型表现越差，这种“需求差距”使得模型性能不能直接代表智能水平。​

COLM致力于促进语言模型技术的发展，并推动学术界与产业界的深度交流。Mamba模型及其他获奖论文展示了语言模型领域的前沿探索，为未来的研究指明了方向。​

50%

在 Google Cloud TPU 上微调 LLaMa3.1，成本降低 30%，并实现无缝扩展！​

https://mp.weixin.qq.com/s/eJwg4GwH--9IVFedum_BnA

随着AI模型参数量的增长，对算力需求也急剧上升。例如，Llama-3.1的405B版本需要900GB以上的内存，对算力构成巨大挑战。为了解决这一问题，Felafax公司致力于简化AI训练集群的搭建，采用了性价比更高的AMD GPU，并通过JAX对LLaMA 3.1 405B模型进行微调。​

JAX是一个强大的机器学习库，它结合了类似NumPy的API、自动微分功能和Google的XLA编译器，在非英伟达硬件上表现优异。使用JAX可以在多种硬件设备上高效运行，而无需修改代码。这种硬件无关的设计使JAX成为非英伟达硬件上的最佳选择。相比之下，PyTorch在迁移至AMD GPU或TPU时，需要更多适配工作。Felafax利用JAX在8张AMD MI300X GPU上成功微调了LLaMA 3.1 405B模型。每张MI300X拥有192GB的HBM3内存，使得LLaMA 405B在AMD节点上能够高效运行。​

模型微调采用了LoRA（Low-Rank Adaptation）方法，将所有权重和LoRA参数设为bfloat16格式。LoRA通过将权重更新分解为低秩矩阵，减少了可训练参数的数量，有效降低了内存开销。LoRA的rank值设为8，alpha值设为16，最终模型占用总显存的77%，即约1200GB。在此设置下，使用JAX急切模式时模型训练速度为35 tokens/秒，显存利用率达到70%。虽然由于硬件和显存限制无法使用JIT编译，但整体扩展性在8张GPU上表现接近线性。​

模型分片策略是Felafax优化的关键。使用JAX的设备网格（device mesh）功能，可将模型的参数和计算任务分配到不同GPU上。在此应用中，设备网格形状为（1, 8, 1），表示数据并行（dp）、全分片数据并行（fsdp）和模型并行（mp）。模型的LM head（lm_head/kernel）张量在第一个轴上被分片到8个GPU，而没有设置分片规范的参数（如层归一化）则会被复制到所有设备上。​

训练过程中，Felafax还对LoRA参数进行了分片策略优化。LoRA的A矩阵参数沿着fsdp轴分片到8个设备，而B矩阵则沿着mp轴分片，减少了通信开销，增强了训练并行性。最终，该策略在训练LLaMA 405B模型时，仅计算LoRA参数的梯度，保持主模型权重不变，从而降低了内存使用并加快了训练速度。​

50%

奇绩大模型日报（10月 8日） ​

奇绩大模型日报（10月 8日）