five

dclm-edu

收藏
Hugging Face2025-03-08 更新2025-03-09 收录
下载链接:
https://huggingface.co/datasets/HuggingFaceTB/dclm-edu
下载链接
链接失效反馈
官方服务:
资源简介:
DCLM-Edu数据集是DCLM数据集的过滤版本,通过FineWeb-Edu教育质量分类器对网页进行标注并筛选出教育质量分数高于2的样本。该数据集旨在用于小型语言模型的训练,并已用于训练SmolLM2-135M和SmolLM2-360M模型。数据集中包含的样本分数为2是为了平衡数据集和增加多样性。
提供机构:
Hugging Face TB Research
创建时间:
2025-03-05
搜集汇总
数据集介绍
main_image_url
构建方式
DCLM-Edu数据集的构建基于DCLM原始数据集,经过FineWeb-Edu教育质量分类器的筛选,对每个网页的教育质量进行评分,并只保留了评分高于2的样本。该数据集旨在用于小型语言模型的训练,并为SmolLM2-135M和SmolLM2-360M模型提供了训练基础。
使用方法
用户可以通过HuggingFace的datasets库或datatrove工具来使用该数据集。使用datasets库时,可以直接加载train分割的数据,并进行流式处理;使用datatrove时,可以定义数据处理管道,包括读取、过滤和写入等步骤。此外,用户可以根据需要筛选出特定评分阈值的样本进行训练。
背景与挑战
背景概述
DCLM-Edu数据集,是在DCLM数据集基础上,通过FineWeb-Edu教育质量分类器筛选并标注的教育内容质量数据集。该数据集的创建旨在为小型语言模型训练提供高质量的文本材料,并已被用于训练SmolLM2-135M和SmolLM2-360M模型。该数据集由mlfoundations团队于近期发布,反映了当前自然语言处理领域对高质量教育文本资源的迫切需求,对提升小规模语言模型的知识掌握和推理能力具有重要的研究价值。
当前挑战
DCLM-Edu数据集面临的挑战主要在于:1) 如何在保证教育内容质量的同时,确保数据集的多样性和平衡性;2) 构建过程中,如何高效筛选并标注大量的网页文本,以及如何处理不同教育质量评分阈值对模型训练效果的影响。此外,数据集混合使用策略在不同规模模型训练中的不一致性也是当前研究需要解决的问题。
常用场景
经典使用场景
DCLM-Edu数据集,作为筛选后的DCLM数据集的一个版本,主要被应用于小规模语言模型的训练。其经典的使用场景在于,通过该数据集对语言模型进行教育质量相关的训练,旨在提升模型在教育内容理解和处理方面的能力。
解决学术问题
该数据集的构建解决了教育领域内容质量筛选的难题,它通过精细的标注和筛选,确保了数据集中包含高质量的教育内容。这对于学术研究中,特别是在构建针对教育领域优化的语言模型时,提供了重要支持,有助于模型在知识传递和推理任务上的性能提升。
实际应用
在实际应用中,DCLM-Edu数据集可用于开发教育辅助工具,如智能教育内容推荐系统、自动教育质量评估工具等,从而提升教育资源的利用效率和教学质量。
数据集最近研究
最新研究方向
在当前自然语言处理领域,教育质量数据集的构建与应用正日益受到重视。DCLM-Edu数据集的诞生,是对DCLM原始数据集的精细化处理,旨在通过筛选出具有较高教育质量的网页内容,以提升小规模语言模型在知识性和推理任务上的表现。近期研究显示,通过对该数据集进行进一步筛选,仅保留教育质量评分高于3的样本,能够使得基于此数据集训练的语言模型在知识推理任务上取得更优性能。这一发现对于教育领域的人工智能应用具有重要意义,不仅优化了语言模型的学习素材,也为后续的模型训练和应用提供了新的视角和方法论。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作