Pager 4 - BiribiriBird

教育纠错论文笔记

大语言模型教育纠错 · 论文笔记（零）

记录一些没有细读的论文所提到的method

数据清洗论文笔记

大语言模型数据清洗 · 论文笔记（四）

AnnoLLM - Making Large Language Models to Be Better Crowdsourced Annotators

数据清洗论文笔记

大语言模型数据清洗 · 论文笔记（三）

FinerWeb-10BT Refining Web Data with LLM-Based Line-Level Filtering

数据清洗论文笔记数据集评测

大语言模型数据清洗 · 论文笔记（二）

The Pile An 800GB Dataset of Diverse Text for Language Modeling

数据清洗论文笔记

大语言模型数据清洗 · 论文笔记（一）

CCNet Extracting High Quality Monolingual Datasets from Web Crawl Data

Python

Python Rookie 扫盲 · 语法进阶

从头开始补习一下Python

Python

Python Rookie 扫盲 · 语法基础

从头开始补习一下Python

自然语言处理

浅谈MinHash

语料质量检测

FineWeb-Edu-Chinese数据集论文记录

OPENCSG CHINESE CORPUS A SERIES OF HIGHQUALITY CHINESE DATASETS FOR LLM TRAINING

语料质量检测

FineWeb数据集论文记录

The FineWeb Datasets Decanting the Web for the Finest Text Data at Scale