distilabel-internal-testing/fineweb-edu-dedup-filtered

Name: distilabel-internal-testing/fineweb-edu-dedup-filtered
Creator: distilabel-internal-testing
Published: 2024-06-20 13:45:12
License: 暂无描述

Hugging Face2024-06-20 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/distilabel-internal-testing/fineweb-edu-dedup-filtered

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含文本、ID和元数据三个主要特征。元数据进一步细分为dump、url、date、file_path、language、language_score、token_count、score和int_score等子字段。数据集被分割为训练集，包含127,248个样本，数据总大小为513,351,833字节。

The dataset includes three main features: text, ID, and metadata. Metadata is further divided into subfields such as dump, url, date, file_path, language, language_score, token_count, score, and int_score. The dataset is split into a training set containing 127,248 samples, with a total data size of 513,351,833 bytes.

提供机构：

distilabel-internal-testing

原始信息汇总

数据集概述

数据集信息

特征

text: 类型为字符串。
id: 类型为字符串。
metadata: 结构化数据，包含以下字段：
- dump: 类型为字符串。
- url: 类型为字符串。
- date: 类型为时间戳（秒）。
- file_path: 类型为字符串。
- language: 类型为字符串。
- language_score: 类型为浮点数（float64）。
- token_count: 类型为整数（int64）。
- score: 类型为浮点数（float64）。
- int_score: 类型为整数（int64）。