奇绩大模型日报（4月 15日）

推特

私密马赛妈妈酱，瓦塔西哇要去远航：OpenAI推出针对日语优化 GPT-4 定制模型​

贡献人：

用户8534

https://x.com/OpenAI/status/1779754674242892014

OpenAI 宣布在亚洲设立第一个办事处 - OpenAI 日本,同时推出一个专门针对日语进行优化的全新 GPT-4 定制模型。​

详情请见: https://openai.com/blog/introducing-openai-japan…

50%

Opus模拟图灵机器，给定现有磁带，学习规则并计算出新序列

贡献人：

用户8534

https://x.com/ctjlewis/status/1779740038852690393

•
Opus 可以作为一台图灵机运行。​

•
只需给定现有的磁带,它就能学习规则并正确计算出新的序列。​

•
在 500 多个 24 步的解决方案中,准确率达到 100%(还有更多测试正在进行)。​

•
要在 24 步内达到 100% 的准确率,输入磁带的权重为 30k tokens*。​

•
GPT-4 无法做到这一点。​

50%

吴恩达谈规划：一个主动式AI设计模式；许多任务不能在单个步骤或单个工具调用中完成,但智能体可以决定采取什么步骤​

贡献人：

用户8534

https://x.com/AndrewYNg/status/1779606380665803144

规划是一个关键的主动式AI设计模式,其中我们使用大型语言模型(LLM)来自主决定执行什么样的步骤序列来完成一个更大的任务。例如,如果我们要求一个智能体对给定的主题进行在线研究,我们可以使用LLM将目标分解为更小的子任务,例如研究特定的子主题、综合调查结果以及编写报告。​

在ChatGPT发布后不久,许多人都有一个"ChatGPT时刻",当他们使用ChatGPT并惊讶地发现它大大超出了他们对AI能力的预期。如果你还没有类似的"AI主动式时刻",我希望你很快就会有。几个月前,我有过一次这样的经历,当时我展示了一个我实现的研究智能体的现场演示,该智能体可以访问各种在线搜索工具。 ​

我曾经多次私下测试过这个智能体,在测试过程中,它始终使用网络搜索工具来收集信息并写出总结。但在现场演示中,Web搜索API意外地返回了一个速率限制错误。我以为我的演示即将公开失败,我害怕接下来会发生什么。令我惊讶的是,智能体灵活地转向了维基百科搜索工具——我已经忘记我给它提供了这个工具——并使用维基百科而不是网络搜索完成了任务。​

这对我来说是一个令人惊讶的AI主动式时刻。我认为许多还没有经历过这样时刻的人将在未来几个月内经历它。当你看到一个智能体自主决定以你没有预料到的方式做事,并因此获得成功,这是一件很美好的事情!​

许多任务不能在单个步骤或单个工具调用中完成,但智能体可以决定采取什么步骤。例如,为了简化HuggingGPT论文(如下所引)中的一个例子,如果你想让一个智能体考虑一张男孩的图片,并以相同的姿势画一张女孩的图片,任务可能被分解为两个不同的步骤:(i)检测男孩图片中的姿势,以及(ii)渲染一张在检测到的姿势下的女孩图片。LLM可能通过微调或提示(使用少样本提示)来指定一个计划,输出一个格式如"{tool: pose-detection, input: image.jpg, output: temp1 } {tool: pose-to-image, input: temp1, output: final.jpg}"的字符串。​

这个结构化的输出指定了要采取的两个步骤,然后触发软件依次调用姿势检测工具和姿势到图像工具来完成任务。(这个例子仅用于说明目的;HuggingGPT使用不同的格式。)​

诚然,许多主动式工作流不需要规划。例如,你可能让智能体对其输出进行固定次数的反思和改进。在这种情况下,智能体采取的步骤序列是固定的和确定的。但对于那些你无法事先将任务分解为一组步骤的复杂任务,规划允许智能体动态地决定要采取什么步骤。​

一方面,规划是一个非常强大的能力;另一方面,它会导致不太可预测的结果。根据我的经验,虽然我可以让反思和工具使用这两个主动式设计模式可靠地工作并提高我的应用程序的性能,但规划是一项不太成熟的技术,我发现很难提前预测它会做什么。但该领域继续快速发展,我相信规划能力将迅速提高。​

如果你有兴趣了解更多关于使用LLM进行规划的信息,我推荐:

•
连锁思维提示引发大型语言模型的推理,Wei等人(2022年)​

•
HuggingGPT:使用ChatGPT及其在Hugging Face中的朋友解决AI任务,Shen等人(2023年) ​

•
理解LLM智能体的规划:一项调查,Huang等人(2024年)​

50%

common.docs_name - LarkCCM_Docs_Menu_Image

50%

奇绩大模型日报（4月 15日） ​

奇绩大模型日报（4月 15日）