教育纠错论文笔记

大语言模型教育纠错 · 论文笔记（零）

记录一些没有细读的论文所提到的method

[TOC]

Temporal Consistency for LLM Reasoning Process Error Identification

2503.14495 Temporal Consistency for LLM Reasoning Process Error Identification

无训练过程
纯迭代反思

应用领域主要是大模型自己的解题步骤的错误检测

算是一个比较通用的做法，数学题之外有分步性质的应该也ok

可以借鉴一下其Reflection的方法

输入定义如下：

$P$：题目原文（例如数学问题）；
$S = [s_1, s_2, …, s_n]$：模型生成的解题步骤，按步分段；
$L$：目标是预测哪一段 $s_i$ 是 首个错误步骤（或无错误）；
$R_t$：第 $t$ 轮的模型判断（包含错误定位和解释）；

总共准备了K个模型并行进行推理，对于单个模型需要做以下事情：

给定题目、解题步骤、自己的上轮判断
模型需要结合该信息判断、解释
持续迭代

对K个模型投票，票数最多的即为结果

设定的终止条件：

单个模型连续$q$轮给出稳定结论
K个模型的过去$q$轮的主体结果投票比例不能下降
或者T轮迭代上限（防止死循环）

Pipeline

如图，三个模型进行迭代，最后得到一致的结果

下面两个模型一开始不能得到正确答案，但是经过迭代得到正确结果

实验结果：

Table

Todo

2406.00755