奇绩大模型日报（7月 26日）

用户150

用户1188

用户5537

用户8534

2024年7月27日修改

推特

OpenAI推出SearchGPT：我们认为搜索还有比现在更好的空间空间

我们认为搜索还有比现在更好的空间。

我们正在推出一个名为 SearchGPT 的新原型： https://openai.com/index/searchgpt-prototype/…

我们将从原型中学习，使其变得更好，然后将技术集成到 ChatGPT 中，使其实时且最大程度地提供帮助。

50%

50%

Noam Brown: 从Pluribus得到教训，不要过度优化中间的基准测试

5年前，我们发布了Pluribus，这是首个超越人类的多玩家扑克AI。它的训练成本只有150美元。为什么扑克比围棋花费更长时间？最后它的成本为什么如此低廉？答案是关于过度优化基准测试的警示，这与今天的大型语言模型（LLM）相关。​

年度计算机扑克竞赛（ACPC）是扑克AI的主要基准测试。从2006年开始，每年所有的扑克AI研究实验室都会聚集在ACPC上，相互对战。赢得ACPC非常有声望，因此研究人员投入了大量精力进行提交。​

为了降低成本，ACPC限制提交的AI只能使用两个CPU核心进行推理，每手牌限时几秒钟。然而，在预训练阶段允许使用无限的资源。​

这些限制影响了研究方向：团队在预训练上花费了超过1万美元，但忽视了需要大量测试时计算资源的规划算法。而事实证明，这些规划算法对于击败顶级人类玩家至关重要。​

Pluribus不符合ACPC的参赛资格——它的规划算法使用了28个CPU核心，每手牌花费超过20秒。但它击败了人类专家。​

从中我学到的教训是不要过度优化中间的基准测试。基准测试确实可以指示进展，但过于关注它们可能会让你偏离最终目标。​

每当我查看如今的大型语言模型基准测试时，我经常会想到这一点。​

50%

Google Deepmind：第一个解决国际数学奥林匹克银牌问题的人工智能​

我们将展示第一个解决国际数学奥林匹克银牌问题的人工智能。 ​

它结合了 AlphaProof（形式推理的新突破模型）和 AlphaGeometry 2（我们之前系统的改进版本）。 ​

50%

Ollama 0.3带工具支持：现在可以对流行模型工具调用

Ollama 0.3 带工具支持！

您现在可以对 Llama 3.1 等流行模型使用工具调用！

示例工具包括：

函数和API

网页浏览

代码解释器

以及更多！

快速线程

50%

 SGLang Runtime v0.2：显著的推理优化功能，完全开源并由python实现​

奇绩大模型日报（7月 26日） ​