在 9 月 3 日,Gru.ai 在 SWE-Bench-Verified 评估最新发布的数据中以 45.2% 的高分排名第一。SWE-Bench-Verified 是 OpenAI 联合 SWE 发布测试集,旨在更可靠的评估 AI 解决实际软件问题的能力。该测试集经由人工验证打标,被认为是评估 AI 软件工程能力的最权威标准。本次参评登顶的 Coding Agent 是 Gru 团队的 Bug Fix Gru。Gru 团队撰写了两篇博客来说明为 SWE 做了哪些工作。 。除了提供给 Bug Fix Gru 完整的运行环境及丰富的开发工具外,而工作流程,多模态支持,Rag 能力的添加都有效提高了得分。最重要的是,团队内部有一个评估流程来评估任何改动带来的影响。