Avatar 🍥

BiribiriBird

Segmentation fault!

  1. 主页
  2. About me
  3. Archives
  4. Search
  5. Experience
  6. Plan

归档

2025 19

分类

论文笔记 数据清洗 教育纠错 语料质量检测 LLM Python 大模型评估 Blog 数据集评测 自然语言处理

标签云

LLM Evaluation Paper Python Benchmarks Blog Dataset Github Hugo LLM自动标注 MinHash N-Gram Reward Model 文本去重 模型蒸馏 算法
LLM

Happy-LLM · Part 1 · NLP

手搓大模型(基础入门版本)

Jul 29, 2025
阅读时长: 9 分钟
教育纠错 论文笔记

大语言模型教育纠错 · 论文笔记(二)

Calibrating LLMs with Preference Optimization on Thought Trees for Generating Rationale in Science Question Scoring

Jul 16, 2025
阅读时长: 3 分钟
LLM

CS336 · Part1 BPE

手搓大模型

Jul 12, 2025
阅读时长: 6 分钟
数据清洗 论文笔记

大语言模型数据清洗 · 论文笔记(五)

Essential-Web v1.0 24T tokens of organized web data

Jul 10, 2025
阅读时长: 5 分钟
教育纠错 论文笔记

大语言模型教育纠错 · 论文笔记(一)

Ask-Before-Detection - Identifying and Mitigating Conformity Bias in LLM-Powered Error Detector for Math Word Problem Solutions

Jun 23, 2025
阅读时长: 7 分钟
教育纠错 论文笔记

大语言模型教育纠错 · 论文笔记(零)

记录一些没有细读的论文所提到的method

Jun 20, 2025
阅读时长: 1 分钟
数据清洗 论文笔记

大语言模型数据清洗 · 论文笔记(四)

AnnoLLM - Making Large Language Models to Be Better Crowdsourced Annotators

Jun 14, 2025
阅读时长: 2 分钟
数据清洗 论文笔记

大语言模型数据清洗 · 论文笔记(三)

FinerWeb-10BT Refining Web Data with LLM-Based Line-Level Filtering

Jun 10, 2025
阅读时长: 10 分钟
数据清洗 论文笔记 数据集评测

大语言模型数据清洗 · 论文笔记(二)

The Pile An 800GB Dataset of Diverse Text for Language Modeling

Jun 06, 2025
阅读时长: 8 分钟
数据清洗 论文笔记

大语言模型数据清洗 · 论文笔记(一)

CCNet Extracting High Quality Monolingual Datasets from Web Crawl Data

Jun 06, 2025
阅读时长: 4 分钟
1 2
© 2020 - 2025 Example Person
使用 Hugo 构建
主题 Stack 由 Jimmy 设计