Avatar 🍥

BiribiriBird

Segmentation fault!

  1. 主页
  2. About me
  3. Archives
  4. Search
  5. Experience
  6. Friend

归档

2025 39
2024 7

分类

论文笔记 DLM 强化学习 数据清洗 LLM 教育纠错 李宏毅2021 生产力 李宏毅2025 语料质量检测 BirdResearch Python Blog Cuda CV Diffusion Pytorch 数据集评测 李宏毅2023 自然语言处理

标签云

LLM DLM 强化学习 机器学习 深度学习 LLaDA Python Survey Paper Transformer Agent Bellman Equation Bellman Optimality Equation Blog Colab Cuda CV Dataset Diffusion DLM"
数据清洗 论文笔记 数据集评测

大语言模型数据清洗 · 论文笔记(二)

The Pile An 800GB Dataset of Diverse Text for Language Modeling

Jun 06, 2025
阅读时长: 8 分钟
数据清洗 论文笔记

大语言模型数据清洗 · 论文笔记(一)

CCNet Extracting High Quality Monolingual Datasets from Web Crawl Data

Jun 06, 2025
阅读时长: 4 分钟
Python

Python Rookie 扫盲 · 语法进阶

从头开始补习一下Python

Jun 02, 2025
阅读时长: 5 分钟
Python

Python Rookie 扫盲 · 语法基础

从头开始补习一下Python

May 28, 2025
阅读时长: 6 分钟
自然语言处理

浅谈MinHash

Apr 07, 2025
阅读时长: 3 分钟
语料质量检测

FineWeb-Edu-Chinese数据集论文记录

OPENCSG CHINESE CORPUS A SERIES OF HIGHQUALITY CHINESE DATASETS FOR LLM TRAINING

Apr 03, 2025
阅读时长: 7 分钟
语料质量检测

FineWeb数据集论文记录

The FineWeb Datasets Decanting the Web for the Finest Text Data at Scale

Apr 03, 2025
阅读时长: 5 分钟
语料质量检测

CritiQ 工作文档

LLM生成评估指标,协助标注数据完成Reward模型训练

Apr 03, 2025
阅读时长: 6 分钟
Featured image of post Read Me
Blog

Read Me

About this Blog

Apr 03, 2025
阅读时长: 3 分钟
李宏毅2021

李宏毅机器学习2021 · L5

Sequence to Sequence

Aug 11, 2024
阅读时长: 3 分钟
1 … 3 4 5
© 2020 - 2025 Example Person
使用 Hugo 构建
主题 Stack 由 Jimmy 设计