OpenAI o1 技术初探2:使用MCTS增强推理能力(基于代码实践的解读)(open up one’s eyes)

AIGC动态欢迎阅读

原标题:OpenAI

o1 技术初探2:使用MCTS增强推理能力(基于代码实践的解读)

关键字:结点,答案,报告,问题,模型

文章来源:智猩猩GenAI

内容字数:0字

内容摘要:

在o1的整体框架篇中(https://zhuanlan.zhihu.com/p/773907223),我们从现有开源的论文和代码中(https://github.com/hijkzzz/Awesome-LLM-Strawberry),抽象出了o1可能的技术实现路径,如下图:这里对于这张框架图我们不再做赘述,详情可以参见上面《框架篇》的文章链接。

我们之前说过,这是一张高度抽象的框架图,旨在说明o1官方技术报告中提到的“把更多算力花在inference阶段上,以提升模型的逻辑推理能力”的含义。而从本文开始,我们将以具体的算法去扩展这张框架图的细节。

今天我们要具体扩展的,就是框架图中的Inference部分(黄色块),从框架图可知,Inference部分一般有两个作用:

作用1:直接对inference过程进行优化,具体的优化方法例如:

PRM + some search methods。其中PRM表示我们额外训练的、用于评估“模型中间步骤”而不是“模型答案结果”的奖励模型。我们在框架篇中给过使用这种优化方法的具体例子,这里不再赘述

MCTS(Monte Carlo Tree Searc

原文链接:OpenAI o1 技术初探2:使用MCTS增强推理能力(基于代码实践的解读)

联系作者

文章来源:智猩猩GenAI

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?