奇绩大模型日报（4月 11日）

用户150

用户1188

用户4513

用户5247

用户5537

2024年4月11日修改

推特

Karpathy：用通俗易懂的方式解释llm.c

贡献人：

用户150

用户8534

https://x.com/karpathy/status/1778153659106533806

# 用通俗易懂的方式解释 llm.c

训练大型语言模型(LLM),如 ChatGPT,涉及大量的代码和复杂性。

例如,一个典型的 LLM 训练项目可能会使用 PyTorch 深度学习库。PyTorch 之所以非常复杂,是因为它实现了一个非常通用的 Tensor 抽象(一种排列和操纵保存神经网络参数和激活的数字数组的方法),一个非常通用的用于反向传播的 Autograd 引擎(训练神经网络参数的算法),以及您可能希望在神经网络中使用的大量深度学习层。PyTorch 项目包含 11,449 个文件中的 3,327,184 行代码。​

除此之外,PyTorch 是用 Python 编写的,而 Python 本身就是一种非常高级的语言。您必须运行 Python 解释器来将训练代码转换为低级计算机指令。例如,执行此转换的 cPython 项目在 4,306 个文件中包含 2,437,955 行代码。​

我删除了所有这些复杂性,将 LLM 训练简化到最基本的要素,直接用非常低级的语言(C)与计算机对话,没有其他库依赖项。这下面唯一的抽象就是汇编代码本身。与上面相比,我认为人们会惊讶地发现,训练像 GPT-2 这样的 LLM 实际上只需要在一个文件中用 C 编写大约 1000 行代码。我通过直接在 C 中实现 GPT-2 的神经网络训练算法来实现这种压缩。这很困难,因为您必须详细了解训练算法,能够推导出所有层的前向和后向传递,并非常仔细地实现所有数组索引计算,因为您没有 PyTorch 张量抽象可用。因此,这是一个非常脆弱的安排,但一旦您这样做了,并通过与 PyTorch 进行检查来验证正确性,您就会得到一些非常简单、小巧且在我看来非常漂亮的东西。​

好吧,为什么人们不总是这样做呢?

第一:你放弃了很大的灵活性。如果您想更改神经网络,在 PyTorch 中您可能只需更改一行代码。在 llm.c 中,更改很可能会涉及更多的代码,可能会更加困难,并且需要更多的专业知识。例如,如果它是一个新操作,您可能必须进行一些微积分计算,并为反向传播编写其前向传递和后向传递,并确保它在数学上是正确的。​

第二:你至少在一开始就放弃了速度。没有完全免费的午餐——你不应该指望在只有 1,000 行的情况下获得最先进的速度。PyTorch 在后台做了大量工作,以确保神经网络非常高效。不仅所有 Tensor 操作都非常仔细地调用最有效的 CUDA 内核,而且还有例如 torch.compile,它进一步分析和优化您的神经网络以及它如何在您的计算机上最有效地运行。现在,原则上,llm.c 应该能够直接调用所有相同的内核。但这需要更多的工作和关注,就像在(1)中一样,如果你改变了神经网络的任何东西或者你运行的计算机,你可能必须调用不同的内核,使用不同的参数,并且你可能必须手动进行更多的更改。​

所以 TLDR:llm.c 是训练 GPT-2 的直接实现。事实证明,这个实现出奇地简短。不支持其他神经网络,只支持 GPT-2,如果你想改变网络的任何东西,都需要专业知识。幸运的是,所有最先进的 LLM 实际上与 GPT-2 没有太大的不同,所以这并不像你想象的那样是一个强有力的约束。而且 llm.c 必须进行额外的调整和完善,但原则上我认为它应该能够(或者甚至因为我们摆脱了所有开销而超过?)几乎与 PyTorch 相匹敌,而且代码量与现在的代码量相差不大,适用于大多数现代 LLM。​

而我为什么要研究它?因为它很有趣。它也很有教育意义,因为这 1,000 行非常简单的 C 代码就是所需要的全部,没有其他东西。它只是一些数字数组和一些简单的数学运算,如 + 和 *。经过更多正在进行的工作,它甚至可能被证明是实用的。​

50%

common.docs_name - LarkCCM_Docs_Menu_Image

50%

如果语言模型可以通过搜索来更好地推理，为什么不在 Chain of Thought 期做呢？Noahdgoodman分享：数据而非架构的局限​

贡献人：

用户150

用户8534

https://x.com/noahdgoodman/status/1777409751326081176

当我第一次看到 Tree of Thoughts 时,我问自己:如果语言模型可以通过搜索来更好地推理,为什么它们在 Chain of Thought 期间不自己做呢?一些可能的答案(和一篇新论文):​

1)也许搜索不能表示为单个序列?不:如果我在 python 搜索代码中插入打印语句,我会得到搜索过程的连续流。 ​

2)也许架构无法执行搜索所需的计算?这似乎是可能的,但 ToT 无论如何都会将大多数有趣的步骤推迟到 LM。​

3)各种效率论证——上下文窗口等——都有可能,但我们应该在 CoT 中看到简单的原型搜索。​

4)数据问题?也许 LM 在思考时没有学会搜索,因为训练数据是人类交流,而不是人类思维。(我们写解决方案的方式与我们最初得到它们的方式不同。)​

在新的工作中,我们测试了简单(但很难)的 Countdown 游戏。当只训练正确的解决方案时,LM 表现不佳;当训练序列化的"搜索流"时,LM 表现更好,可以对新问题进行搜索。所以,这一直是一个数据问题!​

(警告:这也是一个效率问题。即使对于小问题,SoS 也需要大量上下文。)​

额外收获!一旦你给了 LM 搜索的概念,它就可以通过 STaR 和 APA 进行自我改进,找到更有效的搜索方法并解决新问题。​

第一作者 @gandhikanishk 的帖子:https://x.com/gandhikanishk/status/1777358353045622891… Arxiv:https://arxiv.org/abs/2404.03683

接下来是什么?研究迁移学习并为预训练的 LM 调整这些想法。​

50%

奇绩大模型日报（4月 11日） ​

奇绩大模型日报（4月 11日）