distilabel-internal-testing/fineweb-edu-dedup-filtered
收藏Hugging Face2024-06-20 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/distilabel-internal-testing/fineweb-edu-dedup-filtered
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含文本、ID和元数据三个主要特征。元数据进一步细分为dump、url、date、file_path、language、language_score、token_count、score和int_score等子字段。数据集被分割为训练集,包含127,248个样本,数据总大小为513,351,833字节。
The dataset includes three main features: text, ID, and metadata. Metadata is further divided into subfields such as dump, url, date, file_path, language, language_score, token_count, score, and int_score. The dataset is split into a training set containing 127,248 samples, with a total data size of 513,351,833 bytes.
提供机构:
distilabel-internal-testing
原始信息汇总
数据集概述
数据集信息
特征
- text: 类型为字符串。
- id: 类型为字符串。
- metadata: 结构化数据,包含以下字段:
- dump: 类型为字符串。
- url: 类型为字符串。
- date: 类型为时间戳(秒)。
- file_path: 类型为字符串。
- language: 类型为字符串。
- language_score: 类型为浮点数(float64)。
- token_count: 类型为整数(int64)。
- score: 类型为浮点数(float64)。
- int_score: 类型为整数(int64)。
数据分割
- train: 包含127248个样本,总大小为513351833字节。
数据集大小
- 下载大小: 280604047字节。
- 数据集大小: 513351833字节。
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个教育领域的文本数据集,包含约138,000行数据,涵盖科学、历史、数学等多个学科的内容,以parquet格式存储,适用于自然语言处理和教育相关研究。
以上内容由遇见数据集搜集并总结生成



