[TOC]
Temporal Consistency for LLM Reasoning Process Error Identification
2503.14495 Temporal Consistency for LLM Reasoning Process Error Identification
- 无训练过程
- 纯迭代反思
应用领域主要是大模型自己的解题步骤的错误检测
算是一个比较通用的做法,数学题之外有分步性质的应该也ok
可以借鉴一下其Reflection的方法
输入定义如下:
- $P$:题目原文(例如数学问题);
- $S = [s_1, s_2, …, s_n]$:模型生成的解题步骤,按步分段;
- $L$:目标是预测哪一段 $s_i$ 是 首个错误步骤(或无错误);
- $R_t$:第 $t$ 轮的模型判断(包含错误定位和解释);
总共准备了K个模型并行进行推理,对于单个模型需要做以下事情:
- 给定题目、解题步骤、自己的上轮判断
- 模型需要结合该信息判断、解释
- 持续迭代
对K个模型投票,票数最多的即为结果
设定的终止条件:
- 单个模型连续$q$轮给出稳定结论
- K个模型的过去$q$轮的主体结果投票比例不能下降
- 或者T轮迭代上限(防止死循环)
如图,三个模型进行迭代,最后得到一致的结果
下面两个模型一开始不能得到正确答案,但是经过迭代得到正确结果
实验结果:
Todo
2406.00755