dclm-edu

Name: dclm-edu
Creator: Hugging Face TB Research
Published: 2025-03-08 00:24:22
License: 暂无描述

Hugging Face2025-03-08 更新2025-03-09 收录

下载链接：

https://huggingface.co/datasets/HuggingFaceTB/dclm-edu

下载链接

链接失效反馈

官方服务：

资源简介：

DCLM-Edu数据集是DCLM数据集的过滤版本，通过FineWeb-Edu教育质量分类器对网页进行标注并筛选出教育质量分数高于2的样本。该数据集旨在用于小型语言模型的训练，并已用于训练SmolLM2-135M和SmolLM2-360M模型。数据集中包含的样本分数为2是为了平衡数据集和增加多样性。

提供机构：

Hugging Face TB Research

创建时间：

2025-03-05

搜集汇总

数据集介绍

构建方式

DCLM-Edu数据集的构建基于DCLM原始数据集，经过FineWeb-Edu教育质量分类器的筛选，对每个网页的教育质量进行评分，并只保留了评分高于2的样本。该数据集旨在用于小型语言模型的训练，并为SmolLM2-135M和SmolLM2-360M模型提供了训练基础。

使用方法

用户可以通过HuggingFace的datasets库或datatrove工具来使用该数据集。使用datasets库时，可以直接加载train分割的数据，并进行流式处理；使用datatrove时，可以定义数据处理管道，包括读取、过滤和写入等步骤。此外，用户可以根据需要筛选出特定评分阈值的样本进行训练。

背景与挑战

背景概述

DCLM-Edu数据集，是在DCLM数据集基础上，通过FineWeb-Edu教育质量分类器筛选并标注的教育内容质量数据集。该数据集的创建旨在为小型语言模型训练提供高质量的文本材料，并已被用于训练SmolLM2-135M和SmolLM2-360M模型。该数据集由mlfoundations团队于近期发布，反映了当前自然语言处理领域对高质量教育文本资源的迫切需求，对提升小规模语言模型的知识掌握和推理能力具有重要的研究价值。

当前挑战

DCLM-Edu数据集面临的挑战主要在于：1) 如何在保证教育内容质量的同时，确保数据集的多样性和平衡性；2) 构建过程中，如何高效筛选并标注大量的网页文本，以及如何处理不同教育质量评分阈值对模型训练效果的影响。此外，数据集混合使用策略在不同规模模型训练中的不一致性也是当前研究需要解决的问题。

常用场景

经典使用场景

DCLM-Edu数据集，作为筛选后的DCLM数据集的一个版本，主要被应用于小规模语言模型的训练。其经典的使用场景在于，通过该数据集对语言模型进行教育质量相关的训练，旨在提升模型在教育内容理解和处理方面的能力。

解决学术问题

该数据集的构建解决了教育领域内容质量筛选的难题，它通过精细的标注和筛选，确保了数据集中包含高质量的教育内容。这对于学术研究中，特别是在构建针对教育领域优化的语言模型时，提供了重要支持，有助于模型在知识传递和推理任务上的性能提升。

实际应用

在实际应用中，DCLM-Edu数据集可用于开发教育辅助工具，如智能教育内容推荐系统、自动教育质量评估工具等，从而提升教育资源的利用效率和教学质量。

数据集最近研究