奇绩大模型日报（9月 21-22日）

用户150

用户6465

用户1188

用户8534

用户5537

2024年9月22日修改

资讯

GPT-4o智能体打《黑神话》精英怪表现超人类，VARP框架引领游戏AI新突破​

https://mp.weixin.qq.com/s/veHSbBxPIqRexG0OWtg4pw

阿里巴巴研究团队提出了一个名为VARP的智能体框架，能够通过视觉语言模型（VLMs）推理直接操控《黑神话·悟空》游戏。这一框架主要依赖图像输入，将游戏截图输入到VLM模型中，通过推理生成相应的Python代码形式动作，并由此控制游戏角色。不同于传统的强化学习方法，这项研究完全基于大模型进行游戏操控，不需要通过大量的对局训练。​

VARP框架包含动作规划系统和人类引导轨迹系统。动作规划系统由情境库、动作库和人类引导库组成，通过引入分解任务模块和自我优化模块，实现智能体动作的生成和改进。而人类引导轨迹系统则通过游戏截图和人类操作数据改进智能体性能，在困难任务中还能通过查询相似截图获取人类操作建议。​

在测试中，VARP智能体在90%的简单和中等战斗场景中取胜，并且AI在精英怪“牯护院”的对战中胜率超越人类玩家。具体测试中，GPT-4o、Claude 3.5、Gemini 1.5 Pro被用来对比AI与人类的表现，GPT-4o的胜率最高，特别是在一些复杂战斗中表现突出。不过，AI在面对幽魂等特定敌人时仍显乏力，且由于推理速度问题，VLM模型无法实时处理每一帧画面，只能基于关键帧生成动作。​

此研究展示了在不使用强化学习的情况下，大模型也能通过图像推理来控制复杂动作，具有很强的突破性。​

50%

common.docs_name - LarkCCM_Docs_Menu_Image

50%

地瓜机器人：打造通用底座，提升机器人开发效率90%

https://mp.weixin.qq.com/s/2psr2tjdHeCQxGubY5n-yA

地瓜机器人，前身为地平线的机器人部门，推出了一套名为RDK X5的机器人开发套件，极大地降低了机器人开发的门槛。无需编写代码，开发者可以轻松实现启动相机、目标检测（如YOLOv10）、物体抓取等功能。通过将API与实物机器人绑定，开发者能够快速完成端到端的机器人应用。例如，机械臂抓取时，它能够自动识别物体并生成相应的操作方案，简化了开发流程。​

地瓜机器人依托其自主研发的**旭日5智能芯片**，这款芯片采用12nm工艺，集成了异构CPU、BPU、GPU和DSP，算力达10TOPs，功耗仅为3W，支持多种传感器接入和主流算法加速，能够满足消费级机器人对智能化和低功耗的需求。旭日5已经与国内多个头部企业合作，推动消费级机器人的量产落地。​

此外，RDK X5开发套件内置NodeHub，集成了200多个开源算法和应用，涵盖Transformer、RWKV、CLIP等大模型，支持双目深度、VSLAM、3D点云计算等高阶感知算法。其全栈开发环境RDK Studio简化了开发流程，只需几步即可完成系统烧录，大幅提升了开发效率。​

通过这套生态体系，地瓜机器人实现了90%的效率提升，并为中小创客和个人开发者提供了强大的工具支持。地瓜机器人致力于成为机器人时代的通用底座，不仅提供软硬件基础设施，还打造了一个覆盖广泛的开发者生态，服务了数万开发者和众多院校及赛事，推动机器人技术的普及和发展。​

50%

Omni-MATH：奥林匹克数学基准助力大模型评估，o1系列展现强劲表现​

https://mp.weixin.qq.com/s/lnd6ttsn_FJ-2BicSy2PvQ

随着OpenAI的o1系列发布，传统数学评测基准已不再能充分展示大模型的能力。o1模型在MATH-500和AIME 2024等数学竞赛中表现出色，分别取得94.8分和83.3%的准确率。为了应对更具挑战性的数学竞赛评测需求，北京大学与阿里巴巴研究团队联合推出了Omni-MATH评测基准，用于评估大语言模型在奥林匹克级别数学推理中的表现。​

Omni-MATH收录了来自全球4428道竞赛级别的数学问题，涵盖33个以上子领域，并分为10个不同难度级别，能够细致地评估模型在各个数学学科中的能力。这些问题经过人工验证，确保答案的准确性，并支持多种评测方法，包括基于GPT-4o的自动化评测。​

Omni-MATH不仅具有清晰的难度分类，涵盖从奥赛预备级到顶级竞赛的难度跨度，还包含广泛的题目类型，如代数、几何、数论等。研究团队通过树状分类体系详细划分题目领域，并通过few-shot提示和GPT-4o模型对题目进行自动分类。这种多层次的分类体系有助于模型在数学竞赛中的表现分析。​

此外，团队开发了Omni-Judge，一个基于Llama3-Instruct的开源答案验证器，能够高效评估模型预测与标准答案的一致性，评测一致率高达95%。Omni-MATH的推出为评估大模型在奥林匹克数学竞赛中的推理能力提供了全面的工具，有助于推动大语言模型在数学领域的进一步研究和应用。​

参考链接：Project Page

50%

Jeff Dean 谈 AI 发展、Transformer 变革及多模态未来

https://mp.weixin.qq.com/s/Csm9De8ZpnrYDfl49d-dAA

Jeff Dean 是谷歌的第20号员工，2011年参与创立了 Google Brain，并在 2023 年成为 Google DeepMind 的首席科学家。Dean 的工作一直聚焦于大规模分布式系统和人工智能系统，尤其是神经网络的扩展与应用。在与伦敦大学副教授 Hannah Fry 的访谈中，他回顾了从神经网络的早期尝试到如今 AI 发展的历程。​

Dean 讲述了他在 90 年代初尝试并行训练神经网络的经历，尽管当时计算能力不足，但这一经验为后来 AI 的扩展奠定了基础。2011年，与吴恩达的谈话重新激发了 Dean 对神经网络的兴趣，并最终促成了 Google Brain 的创立，专注于通过大规模分布式系统训练超大规模神经网络。​

在访谈中，Dean 也提到了谷歌与 DeepMind 的收购背景，强调了强化学习与大规模监督学习的结合如何推动 AI 在游戏及其他复杂任务中的表现。特别是，Transformer 架构的引入解决了语言处理中的序列问题，使得模型并行处理大规模数据成为可能，从而提升了效率与准确性。​

Dean 还分享了他提出 Gemini 作为 Google Brain 与 DeepMind 合并后多模态项目的名称，象征着两者的联合。在未来，多模态模型将进一步融合语言、图像、视频等多种输入模态，增强 AI 的感知和推理能力，推动 AI 向更加广泛和复杂的任务发展。​

参考链接：Google DeepMind on X

50%

推特

奇绩大模型日报（9月 21-22日） ​

奇绩大模型日报（9月 21-22日）