Avatar 🍥

BiribiriBird

Segmentation fault!

  1. 主页
  2. About me
  3. Archives
  4. Search
  5. Experience
  6. Friend

归档

2025 32
2024 7

分类

论文笔记 强化学习 数据清洗 教育纠错 李宏毅2021 生产力 DLM LLM 李宏毅2025 语料质量检测 BirdResearch Python Blog Cuda CV Diffusion Pytorch 数据集评测 李宏毅2023 自然语言处理

标签云

LLM 强化学习 机器学习 深度学习 Python DLM Paper Survey Agent Bellman Equation Bellman Optimality Equation Blog Colab Cuda CV Dataset Diffusion DLM" Github Hugo
教育纠错 论文笔记

大语言模型教育纠错 · 论文笔记(零)

记录一些没有细读的论文所提到的method

Jun 20, 2025
阅读时长: 1 分钟
数据清洗 论文笔记

大语言模型数据清洗 · 论文笔记(四)

AnnoLLM - Making Large Language Models to Be Better Crowdsourced Annotators

Jun 14, 2025
阅读时长: 2 分钟
数据清洗 论文笔记

大语言模型数据清洗 · 论文笔记(三)

FinerWeb-10BT Refining Web Data with LLM-Based Line-Level Filtering

Jun 10, 2025
阅读时长: 10 分钟
数据清洗 论文笔记 数据集评测

大语言模型数据清洗 · 论文笔记(二)

The Pile An 800GB Dataset of Diverse Text for Language Modeling

Jun 06, 2025
阅读时长: 8 分钟
数据清洗 论文笔记

大语言模型数据清洗 · 论文笔记(一)

CCNet Extracting High Quality Monolingual Datasets from Web Crawl Data

Jun 06, 2025
阅读时长: 4 分钟
Python

Python Rookie 扫盲 · 语法进阶

从头开始补习一下Python

Jun 02, 2025
阅读时长: 5 分钟
Python

Python Rookie 扫盲 · 语法基础

从头开始补习一下Python

May 28, 2025
阅读时长: 6 分钟
自然语言处理

浅谈MinHash

Apr 07, 2025
阅读时长: 3 分钟
语料质量检测

FineWeb-Edu-Chinese数据集论文记录

OPENCSG CHINESE CORPUS A SERIES OF HIGHQUALITY CHINESE DATASETS FOR LLM TRAINING

Apr 03, 2025
阅读时长: 7 分钟
语料质量检测

FineWeb数据集论文记录

The FineWeb Datasets Decanting the Web for the Finest Text Data at Scale

Apr 03, 2025
阅读时长: 5 分钟
1 2 3 4
© 2020 - 2025 Example Person
使用 Hugo 构建
主题 Stack 由 Jimmy 设计