分享
奇绩大模型日报(9月 2日)
输入“/”快速插入内容
奇绩大模型日报(9月 2日)
用户150
用户150
用户1188
用户1188
用户8534
用户8534
用户5294
用户5294
用户5537
用户5537
+2
2024年9月3日修改
📡潜空间活动报名
🎉
潜空间系列活动重磅回归!
本期活动将在
9月6日
14:00
开始,我们邀请到的嘉宾是
闫俊杰。
他是MiniMax 创始人兼 CEO,是中国第一梯队的大模型创业者,目前 MiniMax 估值超 25 亿美元。他将和大家探讨
Intelligence with everyone :对 AGI 0-1 的探索与实践
。
本次
仅开放北京线下活动
,望理解。我们将在会后48h内,整理会议纪要的精彩内容第一时间分享。
除嘉宾分享外,每期设置了【匹配合伙人 Cofounder Matching】环节。你可以和 GenAI 时代最有活力的创业者和研究者线下面对面交流,将有机会找到志同道合、有共同创业梦想的小伙伴。
报名通道已开启,欢迎扫描下方二维码报名。
资讯
Command R-35B与Command R-104B
https://www.marktechpost.com/2024/09/01/updated-versions-of-command-r-35b-and-command-r-104b-released-two-powerful-language-models-with-104b-and-35b-parameters-for-multilingual-ai/
Cohere For AI发布了两款重要的AI模型更新:C4AI Command R+ 08-2024和C4AI Command R 08-2024。这些最新的语言模型分别拥有1040亿和350亿参数,展示了在文本生成、推理和工具使用方面的强大能力,尤其适用于多语言环境。
C4AI Command R+ 08-2024技术亮点
•
参数规模
:拥有1040亿参数,是目前最强大的语言模型之一。
•
检索增强生成(RAG)
:具备复杂的多步任务自动化能力,包括摘要生成、问答和跨上下文推理。
•
多语言支持
:训练涵盖23种语言,评估了其中10种语言,适合全球应用。
•
架构优化
:采用优化的自回归Transformer架构,结合分组查询注意力(GQA),提高了推理速度。
•
上下文长度
:支持128K的上下文长度,能够在长对话或文档中保持连贯性和相关性。
工具使用与基础生成
C4AI Command R+ 08-2024能够执行基于文档片段的生成任务,确保生成内容的准确性和可信性。此外,它还擅长会话工具使用,能够在多步任务中灵活调用多个工具,提升复杂任务的完成效果。
C4AI Command R 08-2024
C4AI Command R 08-2024是更紧凑的版本,拥有350亿参数。尽管规模较小,但仍然保持了高效的生成、推理和多语言支持能力,适用于资源受限的环境。
50%
50%
用最直观的动画,讲解LLM如何存储事实
https://mp.weixin.qq.com/s/PSMfQLBBQZyG2GwgzatqvA
本文基于3Blue1Brown发布的视频,深入探讨了大型语言模型(LLM)如何存储和处理知识,特别是在多层感知器(MLP)中的实现细节。视频通过生动的动画展示了LLM的工作机制,尤其是如何处理如“Michael Jordan plays basketball”这样的事实。
首先,视频简要介绍了Transformer模型的基本工作流程,包括注意力机制和MLP的角色。在模型中,每个token都被编码为高维向量,这些向量通过注意力机制和MLP进行处理。注意力机制负责将上下文信息结合,而MLP则承担了大量的事实存储任务。
对于“Michael Jordan plays basketball”这一示例,视频详细解释了MLP如何在高维空间中存储这一事实。具体来说,MLP通过一系列矩阵运算,将代表“Michael Jordan”和“Basketball”的向量进行编码和组合,最终通过线性投射和激活函数(如ReLU)等步骤,生成与输入向量关联的输出向量。
视频进一步说明了GPT-3中的参数计算方法。GPT-3的嵌入空间维度为12288,这意味着其参数矩阵非常庞大,整个模型的参数量达到1750亿,其中三分之二与MLP相关。通过这些参数,模型能够有效地存储和处理大量的事实。
最后,视频还讨论了“叠加”(Superposition)的概念,即单个神经元可能不代表单一特征,而是通过复杂的叠加来存储多种信息,这也是LLM难以解释和具有高度扩展性的原因之一。
50%
50%
大模型应用新战场:揭秘终端侧AI竞争关键
https://mp.weixin.qq.com/s/Ub0by14RBQQHnxtOnbXupg
1.
量化
:为提高AI模型在手机等终端设备上的推理效率,高通深入研究了量化技术,特别是低位数整型精度(如INT4)的应用。这种方法在不影响模型准确性的前提下,显著提升了推理效率和能效。例如,INT4模型与INT8相比,性能提升90%,能效提升60%。
2.
编译技术
:高通通过编译器技术优化AI模型的部署,确保其在硬件上以最高效能运行。其AI引擎Direct框架基于Hexagon NPU进行优化,显著提高了计算性能并减少内存溢出。
3.
硬件加速
:Hexagon NPU作为高通AI引擎的核心,显著提升了AI处理能力。例如,在第三代骁龙8移动平台上,Hexagon NPU的性能较前代提高98%,同时功耗降低40%。
4.
新算法
:高通开发了LR-QAT算法,结合低秩重参数化和量化技术,在降低内存使用的同时保持了模型性能,适用于大语言模型的高效推理。此外,矢量量化(VQ)技术通过考虑参数的联合分布,实现更高效的压缩和更少的信息丢失。
未来展望:
高通还在探索生成式AI模型的终端侧优化,如优化Stable Diffusion模型的效率,使其更适合低功耗设备,并开发适用于视频生成的高效架构。这些技术进展不仅推动了AI模型从云端向终端的迁移,也加速了AI技术在各类智能设备中的普及和应用。
50%
50%