奇绩大模型日报（9月 2日）

用户150

用户1188

用户8534

用户5294

用户5537

2024年9月3日修改

📡潜空间活动报名

🎉

潜空间系列活动重磅回归！

本期活动将在9月6日 14:00开始，我们邀请到的嘉宾是闫俊杰。他是MiniMax 创始人兼 CEO，是中国第一梯队的大模型创业者，目前 MiniMax 估值超 25 亿美元。他将和大家探讨Intelligence with everyone ：对 AGI 0-1 的探索与实践。​

本次仅开放北京线下活动，望理解。我们将在会后48h内，整理会议纪要的精彩内容第一时间分享。​

除嘉宾分享外，每期设置了【匹配合伙人 Cofounder Matching】环节。你可以和 GenAI 时代最有活力的创业者和研究者线下面对面交流，将有机会找到志同道合、有共同创业梦想的小伙伴。​

报名通道已开启，欢迎扫描下方二维码报名。

common.docs_name - LarkCCM_Docs_Menu_Image

资讯

Command R-35B与Command R-104B

https://www.marktechpost.com/2024/09/01/updated-versions-of-command-r-35b-and-command-r-104b-released-two-powerful-language-models-with-104b-and-35b-parameters-for-multilingual-ai/

Cohere For AI发布了两款重要的AI模型更新：C4AI Command R+ 08-2024和C4AI Command R 08-2024。这些最新的语言模型分别拥有1040亿和350亿参数，展示了在文本生成、推理和工具使用方面的强大能力，尤其适用于多语言环境。​

C4AI Command R+ 08-2024技术亮点

•
参数规模：拥有1040亿参数，是目前最强大的语言模型之一。​

•
检索增强生成（RAG）：具备复杂的多步任务自动化能力，包括摘要生成、问答和跨上下文推理。​

•
多语言支持：训练涵盖23种语言，评估了其中10种语言，适合全球应用。​

•
架构优化：采用优化的自回归Transformer架构，结合分组查询注意力（GQA），提高了推理速度。​

•
上下文长度：支持128K的上下文长度，能够在长对话或文档中保持连贯性和相关性。​

工具使用与基础生成​
C4AI Command R+ 08-2024能够执行基于文档片段的生成任务，确保生成内容的准确性和可信性。此外，它还擅长会话工具使用，能够在多步任务中灵活调用多个工具，提升复杂任务的完成效果。​

C4AI Command R 08-2024​
C4AI Command R 08-2024是更紧凑的版本，拥有350亿参数。尽管规模较小，但仍然保持了高效的生成、推理和多语言支持能力，适用于资源受限的环境。​

50%

用最直观的动画，讲解LLM如何存储事实

https://mp.weixin.qq.com/s/PSMfQLBBQZyG2GwgzatqvA

本文基于3Blue1Brown发布的视频，深入探讨了大型语言模型（LLM）如何存储和处理知识，特别是在多层感知器（MLP）中的实现细节。视频通过生动的动画展示了LLM的工作机制，尤其是如何处理如“Michael Jordan plays basketball”这样的事实。​

首先，视频简要介绍了Transformer模型的基本工作流程，包括注意力机制和MLP的角色。在模型中，每个token都被编码为高维向量，这些向量通过注意力机制和MLP进行处理。注意力机制负责将上下文信息结合，而MLP则承担了大量的事实存储任务。​

对于“Michael Jordan plays basketball”这一示例，视频详细解释了MLP如何在高维空间中存储这一事实。具体来说，MLP通过一系列矩阵运算，将代表“Michael Jordan”和“Basketball”的向量进行编码和组合，最终通过线性投射和激活函数（如ReLU）等步骤，生成与输入向量关联的输出向量。​

视频进一步说明了GPT-3中的参数计算方法。GPT-3的嵌入空间维度为12288，这意味着其参数矩阵非常庞大，整个模型的参数量达到1750亿，其中三分之二与MLP相关。通过这些参数，模型能够有效地存储和处理大量的事实。​

最后，视频还讨论了“叠加”（Superposition）的概念，即单个神经元可能不代表单一特征，而是通过复杂的叠加来存储多种信息，这也是LLM难以解释和具有高度扩展性的原因之一。​

50%

大模型应用新战场：揭秘终端侧AI竞争关键

https://mp.weixin.qq.com/s/Ub0by14RBQQHnxtOnbXupg

1.
量化：为提高AI模型在手机等终端设备上的推理效率，高通深入研究了量化技术，特别是低位数整型精度（如INT4）的应用。这种方法在不影响模型准确性的前提下，显著提升了推理效率和能效。例如，INT4模型与INT8相比，性能提升90%，能效提升60%。​

2.
编译技术：高通通过编译器技术优化AI模型的部署，确保其在硬件上以最高效能运行。其AI引擎Direct框架基于Hexagon NPU进行优化，显著提高了计算性能并减少内存溢出。​

3.
硬件加速：Hexagon NPU作为高通AI引擎的核心，显著提升了AI处理能力。例如，在第三代骁龙8移动平台上，Hexagon NPU的性能较前代提高98%，同时功耗降低40%。​

4.
新算法：高通开发了LR-QAT算法，结合低秩重参数化和量化技术，在降低内存使用的同时保持了模型性能，适用于大语言模型的高效推理。此外，矢量量化（VQ）技术通过考虑参数的联合分布，实现更高效的压缩和更少的信息丢失。​

未来展望： 高通还在探索生成式AI模型的终端侧优化，如优化Stable Diffusion模型的效率，使其更适合低功耗设备，并开发适用于视频生成的高效架构。这些技术进展不仅推动了AI模型从云端向终端的迁移，也加速了AI技术在各类智能设备中的普及和应用。​

50%

奇绩大模型日报（9月 2日） ​

奇绩大模型日报（9月 2日）