奇绩大模型日报（5月 20日）

输入“/”快速插入内容

奇绩大模型日报（5月 20日）

用户150

用户1188

用户5537

用户8534

用户4513

用户5247

2024年5月20日修改

推特

从零实现llama3的代码库：所有层次的仔细解析

今天，我很高兴发布一个从零实现llama3的代码库——从多头注意力的每一次矩阵乘法、位置编码到每一层之间的所有层次都进行了仔细的解析和解释。祝你玩得开心 :)​

从零实现llama3

在这个文件中，我从头开始实现了llama3，一次一个张量和矩阵乘法。​

50%

50%

Ethan Mollick：为了在工作中有效地使用人工智能，领导者和员工需要反思他们的工作对他人和对自己的意义​

“为了在工作中有效地使用人工智能，领导者和员工需要反思他们的工作对他人和对自己的意义。”​

我在《金融时报》上发表的关于管理者和领导者在决定人工智能对公司意义方面的文章。无须付费：​

大多数公司没有人工智能战略，但它们已经充斥着这项技术。LinkedIn本月发布的一项调查显示，四分之三的白领工人已经使用了人工智能进行工作，其中四分之五的人是通过自己的账户和设备进行的。他们没有寻求雇主的许可；事实上，他们在隐藏这一事实，因为他们害怕后果。​

这意味着管理者需要停止询问人工智能是否会对他们的组织产生影响，而是要开始塑造它将如何产生影响。这将带来一系列新的挑战，改变管理的意义。我们的组织结构是围绕人类工人是唯一在工作中的智能形式这一理念建立的。这已不再是事实。​

对于许多组织中的许多人来说，他们可衡量的输出是文字——在电子邮件、报告和演示文稿中。我们用文字作为努力、智慧和关怀的代理。当一名中层经理撰写每周状态报告时，报告本身可能不是重点。相反，它是一个信号，表明经理已经完成了监控项目和进行必要调整的工作。​

历史上，这种做法效果尚可。一名高级经理可以一眼看出报告是否有实质内容（表明努力）和写得是否好（表明质量）。但是，现在每个拥有人工智能工具的员工都可以生成符合所有形式要求的工作，而不一定代表背后的努力或思考。​

50%

Json Wei谈Scaling Laws论文：在单一模型家族中，通常模型的大小不多，这会影响预测能力​

很喜欢这项关于预测语言模型性能的极其全面的研究 Observational Scaling Laws and the Predictability of Language Model Performance。发现了许多有见地的要点：

•
在单一模型家族中，通常模型的大小不多，这会影响预测能力。然而，有许多模型家族。如果你能以某种方式标准化模型家族之间的差异，所有数据都可以在同一个图上，从而得到更好的分辨率。​

•
不同基准测试的性能高度相关，也许某些关键能力（自然语言理解、推理、编码）可以预测许多下游任务的表现。​

•
将横轴从计算量改为“f等效FLOPs”，即参考模型家族匹配某个模型能力所需的计算量。​

•
事实证明，这比单纯使用计算量具有更好的预测能力。这个截图中的图表令人印象深刻；你可以用蓝点来预测红点。​

•
很酷的是，他们正在预注册他们的预测，并将在几个月内更新草稿。很有趣，看看他们是否能预测最大的Llama 3的性能。​

•
我非常好奇：我们能把蓝点推到多远的左边，还能预测红点？蓝点经常逐渐靠近拐点。如果你能用小一个数量级的模型预测拐点，那将是非常酷的。​

•
有一点我没有完全理解，那就是观察缩放律的x轴点的计算是否需要“大模型”在“核心能力”上的表现。从图3来看，他们似乎确实使用了大模型的评估性能？​

50%

Mervin Praison根据Karpathy分享完成视频：GPT-4o从零开始构建LLM操作系统​

GPT-4o：从零开始构建LLM操作系统 Karpathy

使用 - phidata

🔧 创建AI操作系统

🚀 操作系统的未来

👥 多智能体创建

📚 知识库 pgvector

🌐 网页浏览 ExaAILabs, DuckDuckGo

50%

奇绩大模型日报（5月 20日） ​