FineWeb-Edu-Chinese数据集论文记录

OPENCSG CHINESE CORPUS A SERIES OF HIGHQUALITY CHINESE DATASETS FOR LLM TRAINING

OPENCSG CHINESE CORPUS A SERIES OF HIGHQUALITY CHINESE DATASETS FOR LLM TRAINING

Dataset:https://huggingface.co/collections/opencsg/chinese-fineweb-66cfed105f502ece8f29643e

Code:https://github.com/yuyijiong/fineweb-edu-chinese

Paper:[2501.08197] OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training

[TOC]

FineWeb-Edu-Chinese

Hugging Face的数据集主页有一些表述和论文是不同的

opencsg/chinese-fineweb-edu · Datasets at Hugging Face

  • FineWeb-Edu-Chinese 数据集的构建流程在很大程度上遵循了FineWeb-edu的策略
    • FineWeb-edu从15TB的FineWeb语料库进行筛选
    • 重点关注数据的教育价值和内容质量
  • 中文数据相对匮乏,整合了多个开源中文语料库

image-20250404183728532

These datasets were selected for their diversity and their educational and technical relevance.

由上述语料库构建了Original Data Pool

首先从教育相关性的方向进行过滤:

image-20250404183829384

  • CCI2数据集中抽取100万个条目
  • 使用Qwen2-7b-instruct按照附录A.1的提示词,对样本的教育价值打分0-5,完成数据标注
  • 使用这些打分数据,微调bge-rerank-zh,添加一个线性回归层,得到一个filter
  • 利用filter排除所有语料库中分数低于3的数据

image-20250404185932046

opencsg/chinese-fineweb-v2-scorer-train-data · Datasets at Hugging Face

同时为了去重,采用重叠阈值0.7的Min-Hash算法(平衡计算效率、数据多样性)

最后得到:

  • Fineweb-Edu-Chinese数据集包含 8900 万个高质量样本,为教育和技术应用提供了丰富的资源。

附录A.1提示词:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
以下是一段网页内容摘录。请使用以下5分制评分系统来评估该网页的写作水平、教育价值和实用性:
0分:如果网页没有提供任何教育价值,完全由无关信息(如广告、宣传材料、少儿不宜内容)组成。
1分:如果网页提供了一些可能有教育价值的基本信息,即使包含一些无关或非学术内容(如广告和宣传材料)。
2分:如果网页涉及某些与教育相关的元素,但与教育标准不太吻合。它可能将教育内容与非教育材料混杂,对潜在的有用的主题进行浅显概述,或以不连贯的写作风格呈现信息。
3分:如果网页适合教育使用,并介绍了与某些学校课程中可能学到的关键概念,或对个人发展有用的实用信息。它的内容连贯但可能不全面,或包含一些无关信息。它可能类似于教科书的一小段节选,可以学习但有明显局限,如涉及过于复杂的概念、过于具体的不重要事件。
4分:如果网页与教育高度相关,对个人学习发展有益,表现出清晰一致的写作风格。它可能类似于教科书的一个章节或教程,提供大量教育内容,极少包含无关信息,且概念对学生来说不会过于深奥。内容连贯、重点突出,对结构化学习有价值。
5分:如果网页摘录在教育价值上表现极好,完全适合小学、中学或大学教学或专业人士学习。它遵循详细的推理过程,写作风格易于理解,对主题提供深刻而全面的见解,不包含任何非教育性或无实用意义内容。
网页内容摘录:
{data}
在审查这段网页摘录后:请简要地为您的评分进行合理的解释,最多不超过100字,最后以“教育得分:【分数】”的格式结束。请根据所列出的标准系统地赋予分数。

FineWeb-Edu-Chinese-V2

  • 进一步扩展了语料库,添加了这个那个和那个……数据集
  • Qwen2.5-14b-instruct更换了Qwen2-7b-instruct

image-20250404184549881

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
以下是一段网页内容摘录。请使用以下5分制评分系统来评估该网页的写作水平、教育价值和实用性:
0分:如果网页没有提供任何教育价值,完全由无关信息(如广告、宣传材料、少儿不宜内容)组成。
1分:如果网页提供了一些可能有教育价值的基本信息,但包含较多的无关或非学术内容(如广告和宣传材料)。
2分:如果网页涉及某些与教育相关的元素,但与教育标准不太吻合。它可能将教育内容与非教育材料混杂,对潜在的有用的主题进行浅显概述,或以不连贯的写作风格呈现信息。
3分:如果网页适合教育使用,并介绍了与某些学校课程中可能学到的关键概念,或对个人发展有用的实用信息。它的内容连贯但可能不全面,或包含一些无关信息。它可能类似于教科书的一小段节选,可以学习但有明显局限,如涉及过于复杂的概念、过于具体的不重要事件。
4分:如果网页与教育高度相关,对个人学习发展有益,表现出清晰一致的写作风格。它可能类似于教科书的一个章节或教程,提供大量教育内容,极少包含无关信息,且概念对学生来说不会过于深奥。内容连贯、重点突出,对结构化学习有价值。
5分:如果网页摘录在教育价值上表现极好,完全适合小学、中学或大学教学或专业人士学习。它遵循详细的推理过程,写作风格易于理解,对主题提供深刻而全面的见解,不包含任何非教育性或无实用意义内容。

网页内容摘录:
{}

在审查这段网页摘录后:请简要地为您的评分进行合理的解释,最多不超过100字,最后以“教育得分:<分数>”的格式结束。请根据所列出的标准系统地赋予分数。

打分的分布如下,最终选择3以上的数据:

image-20250404190613997

Cosmopedia-Chinese

种子数据来源:

  • 560万百度百科条目
  • 100万个知乎问答样本
  • 200万个技术博客条目

丰富领域知识、较高的信息密度

  • 中文数据池中的网页文本:质量不够高,含有广告

种子数据:for example an extract from a web page

Cosmopedia-v2的实验说明更大的模型生成数据有显著效果

  • qwen2-7b-instructyi-1.5-9b-chat:倾向于输出简洁、通用的内容,如摘要、大纲(提示词也没救)
  • 最终选择glm4-9b-longwriter:教科书主要内容那样足够详细和具体的内容

生成:

  • 生成了各种体裁的合成样本,如教科书单元、叙事故事和详细的 “操作指南”
  • 温度0.8保证多样性
  • 对2000万个样本进行Min-Hash去重,保留1500万个
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
这是一段来自网页的摘录:
“{data}”
请编写一个针对大学生的足够详细的教科书课程单元,该单元与给定的摘录中的某个概念或多个概念相关。
不需要包含摘录中的所有内容,只需要发掘其中适合作为教科书内容的部分。你可以自由补充其他相关知识。
不能仅仅列出概念,而是要深入发展和详细探讨每个概念,因为我们优先考虑深入理解主题内容,而不是广度。
要求:
	1. 严谨性:确保对概念/章节的深入覆盖。
	2. 吸引性:用学术、专业且引人入胜的语气撰写,以吸引兴趣。
	3. 应用:融入具体的实践例子,例如微积分中要给出公式、严格证明,历史中要给出关键日期和人物,计算机操作中要给出代码。
	4.不需要给出参考文献。内容中不应包含广告或涉及隐私的信息。注重主体内容,不需要其它格式化的内容。
请记住,要针对大学生制作内容,他们可能拥有一些基础知识,但不是该领域的专家。内容应该详细且发人深省。
请立即开始撰写教科书,不要使用图片,不要输出除了教科书以外的内容,不要以“课程单元”作为标题而是要有具体的标题。

以及其他写故事、教程、教科书的提示词

Smoltalk-Chinese

基于 Magpie-ultra-1MSmoltalk的方法构建,提升任务多样性和对话深度

  • 引入了 7 个额外的任务类别:格式约束、总结、改写、文档QA、安全QA、翻译和日常对话
    • 确保了对与自然语言理解和生成相关的任务有更广泛的覆盖。
  • 使用Deepseek-V2.5Qwen2.5-72B-Insturct等较为先进的模型
  • Magpie-ultra-1M使用的11个任务类别生成3轮对话、新任务类别(除日常对话)1轮对话、日常对话5轮

对于质量筛选,首先要保证用户的第一个命令语句是流畅、连贯、清晰的,使用Qwen2.5-7b-instruct打分,保留超过3分的

使用gte-zh-large编码的嵌入进行去重

使用 Hugo 构建
主题 StackJimmy 设计