five

distilabel-internal-testing/fineweb-edu-dedup-filtered

收藏
Hugging Face2024-06-20 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/distilabel-internal-testing/fineweb-edu-dedup-filtered
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含文本、ID和元数据三个主要特征。元数据进一步细分为dump、url、date、file_path、language、language_score、token_count、score和int_score等子字段。数据集被分割为训练集,包含127,248个样本,数据总大小为513,351,833字节。

The dataset includes three main features: text, ID, and metadata. Metadata is further divided into subfields such as dump, url, date, file_path, language, language_score, token_count, score, and int_score. The dataset is split into a training set containing 127,248 samples, with a total data size of 513,351,833 bytes.
提供机构:
distilabel-internal-testing
原始信息汇总

数据集概述

数据集信息

特征

  • text: 类型为字符串。
  • id: 类型为字符串。
  • metadata: 结构化数据,包含以下字段:
    • dump: 类型为字符串。
    • url: 类型为字符串。
    • date: 类型为时间戳(秒)。
    • file_path: 类型为字符串。
    • language: 类型为字符串。
    • language_score: 类型为浮点数(float64)。
    • token_count: 类型为整数(int64)。
    • score: 类型为浮点数(float64)。
    • int_score: 类型为整数(int64)。

数据分割

  • train: 包含127248个样本,总大小为513351833字节。

数据集大小

  • 下载大小: 280604047字节。
  • 数据集大小: 513351833字节。

配置

  • config_name: default
    • data_files:
      • split: train
      • path: data/train-*
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个教育领域的文本数据集,包含约138,000行数据,涵盖科学、历史、数学等多个学科的内容,以parquet格式存储,适用于自然语言处理和教育相关研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作