kh4dien/fineweb-100m-sample

Name: kh4dien/fineweb-100m-sample
Creator: kh4dien
Published: 2024-07-04 00:33:50
License: 暂无描述

Hugging Face2024-07-04 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/kh4dien/fineweb-100m-sample

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个字段，如文本、ID、URL、日期、文件路径、语言、语言评分和词数统计等。数据集被分割为训练集，包含148,737个样本，总大小为510,194,638字节。

The dataset includes multiple fields such as text, ID, URL, date, file path, language, language score, and token count. The dataset is split into a training set containing 148,737 samples, with a total size of 510,194,638 bytes.

提供机构：

kh4dien

原始信息汇总

数据集概述

数据集特征

text: 文本数据，数据类型为字符串。
id: 标识符，数据类型为字符串。
dump: 数据类型为字符串。
url: 链接地址，数据类型为字符串。
date: 日期信息，数据类型为字符串。
file_path: 文件路径，数据类型为字符串。
language: 语言信息，数据类型为字符串。
language_score: 语言评分，数据类型为浮点数。
token_count: 词元计数，数据类型为整数。

数据集分割

train: 训练集，包含148737个样本，总大小为510194638字节。

数据集大小

下载大小: 307041252字节
数据集总大小: 510194638字节

配置信息

config_name: default
- data_files:
  - split: train
  - path: data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集