这几天,17 岁中专生姜萍在 2024 阿里巴巴全球数学竞赛预选赛中取得全球第 12 名的新闻刷了屏。而同时,AI 挑战赛的成绩显示,在所有 563 支 AI 参赛队伍中,最高分 34 分,平均分 18 分,赶上了人类选手平均水平。AI 参与数学竞赛的主要短板是逻辑推理能力弱,证明题很难拿到完整得分点。这也是 GPT-4、LLaMA等当前大语言模型(LLM)在需要策略和逻辑推理的任务中面临的重大挑战。其中的一大障碍是输出的准确性和可信度,尤其是在需要保证精度的数学上下文中,LLM 在推理时往往容易产生幻觉。输出结果表面上看似合理,但实际上不相关或事实不正确,最终导致不合理的推理过程。虽然像 Self-Refine 这样的重写技术有助于缓解这种倾向,但依然可能导致现实世界复杂的数学问题产生误导性或错误的结果。因此,为了应对这些挑战,来自复旦大学、上海 AI Lab 的研究者提出了 MCT Self-Refine(MCTSr),将 LLM 与蒙特卡洛树搜索(MCTS)算法相结合,并重点提高 LLM 在复杂数学推理任务(比如奥数竞赛题)中的表现。作为一种决策工具,MCTS广泛应用于人工智能中需要战略规划的场景,通常用于游戏和复杂的问题解决环境。本文通过将 MCTS 的系统探索能力与 LLM 的 Self-Refine 和 Self-Evaluation 能力相结合, 旨在创建一个更强大的框架来应对当前 LLM 难以解决的复杂推理任务。