分享
奇绩大模型日报(7月 26日)
输入“/”快速插入内容
奇绩大模型日报(7月 26日)
用户150
用户150
用户1188
用户1188
用户5537
用户5537
用户8534
用户8534
2024年7月27日修改
推特
OpenAI推出SearchGPT:我们认为搜索还有比现在更好的空间空间
https://x.com/sama/status/1816551657158877187?s=46&t=GRStLXDcUNuun8J5Noyw4Q
我们认为搜索还有比现在更好的空间。
我们正在推出一个名为 SearchGPT 的新原型:
https://openai.com/index/searchgpt-prototype/
…
我们将从原型中学习,使其变得更好,然后将技术集成到 ChatGPT 中,使其实时且最大程度地提供帮助。
50%
50%
Noam Brown: 从Pluribus得到教训,不要过度优化中间的基准测试
https://x.com/polynoamial/status/1816347598623834365
5年前,我们发布了Pluribus,这是首个超越人类的多玩家扑克AI。它的训练成本只有150美元。为什么扑克比围棋花费更长时间?最后它的成本为什么如此低廉?答案是关于过度优化基准测试的警示,这与今天的大型语言模型(LLM)相关。
年度计算机扑克竞赛(ACPC)是扑克AI的主要基准测试。从2006年开始,每年所有的扑克AI研究实验室都会聚集在ACPC上,相互对战。赢得ACPC非常有声望,因此研究人员投入了大量精力进行提交。
为了降低成本,ACPC限制提交的AI只能使用两个CPU核心进行推理,每手牌限时几秒钟。然而,在预训练阶段允许使用无限的资源。
这些限制影响了研究方向:团队在预训练上花费了超过1万美元,但忽视了需要大量测试时计算资源的规划算法。而事实证明,这些规划算法对于击败顶级人类玩家至关重要。
Pluribus不符合ACPC的参赛资格——它的规划算法使用了28个CPU核心,每手牌花费超过20秒。但它击败了人类专家。
从中我学到的教训是不要过度优化中间的基准测试。基准测试确实可以指示进展,但过于关注它们可能会让你偏离最终目标。
每当我查看如今的大型语言模型基准测试时,我经常会想到这一点。
50%
50%
Google Deepmind:第一个解决国际数学奥林匹克银牌问题的人工智能
https://x.com/googledeepmind/status/1816498082860667086?s=46&t=GRStLXDcUNuun8J5Noyw4Q
我们将展示第一个解决国际数学奥林匹克银牌问题的人工智能。
它结合了 AlphaProof(形式推理的新突破模型)和 AlphaGeometry 2(我们之前系统的改进版本)。
https://dpmd.ai/imo-silver
50%
50%
Ollama 0.3带工具支持:现在可以对流行模型工具调用
https://x.com/ollama/status/1816633415770472485?s=46&t=GRStLXDcUNuun8J5Noyw4Q
Ollama 0.3 带工具支持!
您现在可以对 Llama 3.1 等流行模型使用工具调用!
https://ollama.com/blog/tool-support
…
示例工具包括:
函数和API
网页浏览
代码解释器
以及更多!
快速线程
50%
50%
SGLang Runtime v0.2:显著的推理优化功能,完全开源并由python实现
https://x.com/lmsysorg/status/1816515251745214853?s=46&t=GRStLXDcUNuun8J5Noyw4Q