奇绩大模型日报（9月 16-17日）中秋快乐

用户150

用户1188

用户8534

用户5294

用户5537

用户6465

2024年9月18日修改

资讯

o1方法性能无上限！姚班马腾宇等数学证明：推理token够多，就能解决任意问题​

https://mp.weixin.qq.com/s/4sK6NzCiYEjIamC7CHN3GA

OpenAI最新研究表明，只要思维链（Chain of Thought, CoT）足够长，Transformer模型可以解决任何问题，这一结果通过数学证明揭示了Transformer的潜力无限。斯隆奖得主马腾宇和Google Brain团队创建者Denny Zhou的研究通过数学方法证明了Transformer具备模拟任意多项式大小的数字电路的能力，这意味着理论上神经网络可以高效解决复杂问题。论文已被ICLR 2024接收。​

研究细节：

•
表达能力扩展：在没有CoT的情况下，固定深度、多项式宽度的Transformer模型受限于AC0问题类别，仅能处理可并行计算的问题。引入CoT后，固定深度、常数精度的Transformer模型可以解决任何由布尔电路完成的问题，显著增强了模型的表达能力。​

•
实验验证：论文在四个核心问题上进行实验，包括：​
a.
模运算（Modular Addition）：在并行计算任务上，CoT提高了模型在长序列上的准确性。​
b.
置换群组合（Permutation Composition）：对于序列化计算任务，使用CoT的Transformer，即使深度较低也能实现100%准确率。​
c.
迭代平方（Iterated Squaring）：在内在串行计算任务上，CoT使得1层Transformer就能完美求解。​
d.
电路值问题（Circuit Value Problem）：实验显示，使用CoT后，1层Transformer即可解决这一P完全问题。​

•
CoT+Transformer的电路模拟：研究进一步证明，对于多项式大小的布尔电路，存在一个常数层数的Transformer可以通过足够长的CoT来模拟电路计算。通过Transformer的注意力机制和前馈网络，CoT逐步模拟电路中每个门的计算，最终实现电路的整体模拟。​

理论与现实的差距：虽然这项研究揭示了CoT的巨大潜力，但现实中模型的训练、上下文窗口和计算资源等限制仍然存在。如何将实际问题转换为布尔电路形式也是一大难题，且实际应用还需解决模型设计和优化问题。​

50%

common.docs_name - LarkCCM_Docs_Menu_Image

50%

OpenAI o1式思维链，开源模型也可以有，成功案例来了

https://mp.weixin.qq.com/s/W28qb8ZaJkcyDP69eGw8MA

OpenAI于9月13日发布了推理性能强大的ο1系列模型，引发了研究者对其背后技术的探索和复现尝试。短短几天内，已经有研究者声称成功开发出了与ο1性能相似的推理技术。以下是两个与之相关的项目：Llamaberry和g1。​

Llamaberry：多轮思维链推理

•
开发者：Martin Bowling，开发了项目RAGMiner.dev和Replit。Llamaberry的核心思路是使用思维链（Chain of Thought, CoT）来实现推理，灵感源自于o1模型的“Strawberry”。​

•
多轮推理：多轮推理通过模拟人类逐步思考问题的过程，优化AI的推理能力。在每一轮推理中，模型会首先尝试解决当前问题，然后回顾前一轮的思考并进行改进，直至得出综合的答案。此过程类似于一位厨师逐步完成一道菜，而非一次性给出结果。​

•

实现细节：

设置规则：为AI提供初始提示，要求其以Markdown格式分步骤展现推理过程。例如：

代码块

initial_system_prompt = """You are an AI assistant capable of detailed, step-by-step thinking. When presented with a question or problem, break down your thought process into clear, logical steps..."""​

b.
多轮推理函数：generate_turn()函数构建多轮推理逻辑，包含当前轮和之前所有轮次的思考内容，确保AI基于先前思考进行推理。​

c.
综合结果：synthesize_turns()函数整合多轮推理的内容，凝练为最终答案，类似专家讨论后的最终报告。​

•
单轮 vs 多轮推理：多轮推理通过逐步优化思考过程，能够提供更全面、精细的分析。Martin Bowling通过示例展示了多轮推理的优势，使AI的回答更具深度和透明度。​

•
优势：多轮推理增加了AI在思考深度、自我提升、灵活性等方面的能力，适用于医疗诊断、法律分析、商业策略等实际应用场景。​

•
使用方法：Llamaberry提供了简单的使用方式，可通过Replit运行，实现多轮推理系统。​

g1：类ο1推理链

•
开发者：Benjamin Klieger，基于Groq并使用Llama 3.1 70B模型。​

•
策略：不同于Llamaberry的多轮思维链推理，g1采用了角色扮演、思维链提示、格式化等多种提示技巧，使LLM具备类似于“思考”的能力。​

•
技术细节：g1通过动态思维链引导模型在每一步中决定是继续推理还是给出最终答案，使用复杂的提示策略来提升推理能力。其提示策略包括让模型在推理中探索多种答案、检验自身逻辑等。​

•
性能：在经典的“Strawberry中有多少个R”问题上，g1无需任何训练即可让Llama 3.1 70B达到约70%的准确率，显著优于未使用提示技术的情况。​

Llamaberry和g1分别通过多轮思维链推理和提示工程实现了类似于ο1模型的推理能力，展示了AI在推理领域的巨大潜力。然而，这些技术也面临计算成本、伦理问题等实际挑战。​

50%

OpenAI o1要跟，怎么跟？这个GitHub项目把解读、博客、相关论文一网打尽​

https://mp.weixin.qq.com/s/sPYeM5LbfAwyHUxbQ78Vsg

50%

奇绩大模型日报（9月 16-17日） 中秋快乐​

奇绩大模型日报（9月 16-17日）中秋快乐