Harshkmr/finewebHindi

Name: Harshkmr/finewebHindi
Creator: Harshkmr
Published: 2024-07-05 06:37:11
License: 暂无描述

Hugging Face2024-07-05 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/Harshkmr/finewebHindi

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，如文本、ID、dump、URL、日期、文件路径、语言、语言评分和词数等。数据集仅包含一个训练集，共有3568个样本，数据大小为15451429字节，下载大小为8155327字节。

This dataset includes multiple features such as text, ID, dump, URL, date, file path, language, language score, and token count. The dataset contains only a training set with 3568 samples, a data size of 15451429 bytes, and a download size of 8155327 bytes.

提供机构：

Harshkmr

原始信息汇总

数据集概述

数据集信息

特征

text: 文本数据，数据类型为字符串。
id: 唯一标识符，数据类型为字符串。
dump: 数据类型为字符串。
url: 数据类型为字符串。
date: 日期信息，数据类型为字符串。
file_path: 文件路径，数据类型为字符串。
language: 语言信息，数据类型为字符串。
language_score: 语言评分，数据类型为浮点数。
token_count: 标记数量，数据类型为整数。

数据分割

train: 训练集，包含3568个样本，总字节数为15451429。

数据集大小

下载大小: 8155327字节
数据集大小: 15451429字节

配置

config_name: default
- data_files:
  - split: train
  - path: data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集