OpenAI o1 技术初探2：使用MCTS增强推理能力（基于代码实践的解读）（open up one’s eyes）

AIGC动态欢迎阅读

原标题：OpenAI

o1 技术初探2：使用MCTS增强推理能力（基于代码实践的解读）

文章来源：智猩猩GenAI

内容字数：0字

内容摘要：

在o1的整体框架篇中（https://zhuanlan.zhihu.com/p/773907223），我们从现有开源的论文和代码中（https://github.com/hijkzzz/Awesome-LLM-Strawberry），抽象出了o1可能的技术实现路径，如下图：这里对于这张框架图我们不再做赘述，详情可以参见上面《框架篇》的文章链接。

我们之前说过，这是一张高度抽象的框架图，旨在说明o1官方技术报告中提到的“把更多算力花在inference阶段上，以提升模型的逻辑推理能力”的含义。而从本文开始，我们将以具体的算法去扩展这张框架图的细节。

今天我们要具体扩展的，就是框架图中的Inference部分（黄色块），从框架图可知，Inference部分一般有两个作用：

作用1：直接对inference过程进行优化，具体的优化方法例如：

PRM + some search methods。其中PRM表示我们额外训练的、用于评估“模型中间步骤”而不是“模型答案结果”的奖励模型。我们在框架篇中给过使用这种优化方法的具体例子，这里不再赘述

MCTS（Monte Carlo Tree Searc

原文链接：OpenAI o1 技术初探2：使用MCTS增强推理能力（基于代码实践的解读）