Avatar 🍥

BiribiriBird

Segmentation fault!

  1. 主页
  2. About me
  3. Archives
  4. Search
  5. Plan

归档

2025 12

分类

数据清洗 论文笔记 语料质量检测 Python 大模型评估 Blog 数据集评测 自然语言处理

标签云

LLM Evaluation Paper Python Benchmarks Blog Dataset Github Hugo MinHash N-Gram Reward Model 文本去重 算法
数据清洗 论文笔记

大语言模型数据清洗 · 论文笔记(三)

FinerWeb-10BT Refining Web Data with LLM-Based Line-Level Filtering

Jun 10, 2025
阅读时长: 10 分钟
数据清洗 论文笔记 数据集评测

大语言模型数据清洗 · 论文笔记(二)

The Pile An 800GB Dataset of Diverse Text for Language Modeling

Jun 06, 2025
阅读时长: 8 分钟
数据清洗 论文笔记

大语言模型数据清洗 · 论文笔记(一)

CCNet Extracting High Quality Monolingual Datasets from Web Crawl Data

Jun 06, 2025
阅读时长: 4 分钟
Python

Python Rookie 扫盲 · 语法进阶

从头开始补习一下Python

Jun 02, 2025
阅读时长: 5 分钟
Python

Python Rookie 扫盲 · 语法基础

从头开始补习一下Python

May 28, 2025
阅读时长: 6 分钟
大模型评估

大模型评估指南 · 2 自动化基准测试

Automated benchmarks

Apr 10, 2025
阅读时长: 8 分钟
大模型评估

大模型评估指南 · 1 前言

个人笔记 · 一个关于大语言模型(LLM)评估的指南手册

Apr 10, 2025
阅读时长: 2 分钟
自然语言处理

浅谈MinHash

Apr 07, 2025
阅读时长: 3 分钟
语料质量检测

FineWeb-Edu-Chinese数据集论文记录

OPENCSG CHINESE CORPUS A SERIES OF HIGHQUALITY CHINESE DATASETS FOR LLM TRAINING

Apr 03, 2025
阅读时长: 7 分钟
语料质量检测

FineWeb数据集论文记录

The FineWeb Datasets Decanting the Web for the Finest Text Data at Scale

Apr 03, 2025
阅读时长: 5 分钟
1 2
© 2020 - 2025 Example Person
使用 Hugo 构建
主题 Stack 由 Jimmy 设计