five

Morton-Li/FineWeb-Edu-Quality4plus

收藏
Hugging Face2025-12-21 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/Morton-Li/FineWeb-Edu-Quality4plus
下载链接
链接失效反馈
官方服务:
资源简介:
FineWeb-Edu-Quality4plus是原始HuggingFaceFW/fineweb-edu数据集(ODC-By许可证)的一个高质量过滤子集。该子集仅保留质量分数≥4的样本,旨在提供更干净、更可靠的数据集,适用于语言模型预训练、指令调整、教育相关NLP和质量敏感的下游任务。数据集保留了原始文本和元数据,仅移除了不符合质量阈值的样本。

FineWeb-Edu-Quality4plus is a high-quality filtered subset of the original HuggingFaceFW/fineweb-edu dataset (ODC-By License). This subset retains only samples with quality_score ≥ 4, aiming to provide a cleaner and more reliable dataset suitable for language model pre-training, instruction tuning, education-related NLP, and quality-sensitive downstream tasks. The dataset retains exactly the original text and metadata, with only samples failing the quality threshold removed.
提供机构:
Morton-Li
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作