FineWeb-Edu - 精选教育资源网络数据集|教育资源数据集|机器学习数据集
收藏FineWeb-Edu 数据集概述
基本信息
- 名称: FineWeb-Edu
- 许可证: odc-by
- 任务类别: 文本生成
- 语言: 英语 (en)
- 数据规模: >1T
- 版本: 1.3.0 (31-01-2025)
数据集内容
- 总规模: 1.3万亿 tokens (另有5.4万亿 tokens版本 FineWeb-Edu-score-2)
- 来源: 从FineWeb数据集中筛选的教育类网页内容
- 特征字段:
- text: 文本内容
- id: 唯一标识符
- dump: 来源dump
- url: 网页URL
- date: 日期
- file_path: 文件路径
- language: 语言
- language_score: 语言评分
- token_count: token计数
- score: 评分
- int_score: 整数评分
配置选项
- default: 完整数据集
- sample-10BT: 约100亿 tokens样本
- sample-100BT: 约1000亿 tokens样本
- sample-350BT: 约3500亿 tokens样本
- *CC-MAIN-系列: 按时间划分的CommonCrawl数据dump (2013-2024)
关键特点
- 使用教育质量分类器筛选
- 分类器基于Llama3-70B-Instruct生成的标注训练
- 在多个基准测试中表现优于原始FineWeb数据集
相关资源
- 论文: arXiv论文链接
- 代码库: GitHub代码
- 去重版本: SmolLM-Corpus
加载方式
支持通过datatrove
和datasets
库加载完整数据集或特定dump
版本更新
- v1.3.0: 修复了部分dump的数据处理问题
- v1.2.0: 新增9个2024年4-12月的快照
- v1.0.0: 初始版本

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
XJTU-SY Bearing Datasets
XJTU-SY轴承数据集由西安交通大学设计科学与基础部件研究所和浙江长兴Sumyoung科技有限公司提供。数据集包含了15个滚动轴承从运行到故障的完整数据,这些数据是通过进行多次加速退化实验获得的。这些数据集公开可用,任何人都可以使用它们来验证滚动轴承的预测算法。
github 收录