大语言模型教育纠错 · 论文笔记(零)

记录一些没有细读的论文所提到的method

[TOC]

Temporal Consistency for LLM Reasoning Process Error Identification

2503.14495 Temporal Consistency for LLM Reasoning Process Error Identification

  • 无训练过程
  • 纯迭代反思

应用领域主要是大模型自己的解题步骤的错误检测

算是一个比较通用的做法,数学题之外有分步性质的应该也ok

可以借鉴一下其Reflection的方法

输入定义如下:

  • $P$:题目原文(例如数学问题);
  • $S = [s_1, s_2, …, s_n]$:模型生成的解题步骤,按步分段;
  • $L$:目标是预测哪一段 $s_i$ 是 首个错误步骤(或无错误);
  • $R_t$:第 $t$ 轮的模型判断(包含错误定位和解释);

总共准备了K个模型并行进行推理,对于单个模型需要做以下事情:

  • 给定题目、解题步骤、自己的上轮判断
  • 模型需要结合该信息判断、解释
  • 持续迭代

对K个模型投票,票数最多的即为结果

设定的终止条件:

  • 单个模型连续$q$轮给出稳定结论
  • K个模型的过去$q$轮的主体结果投票比例不能下降
  • 或者T轮迭代上限(防止死循环)

Pipeline

如图,三个模型进行迭代,最后得到一致的结果

下面两个模型一开始不能得到正确答案,但是经过迭代得到正确结果

实验结果:

Table

Todo

2406.00755

Licensed under CC BY-NC-SA 4.0
使用 Hugo 构建
主题 StackJimmy 设计