kdcyberdude/Vichaar
收藏Hugging Face2024-06-27 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/kdcyberdude/Vichaar
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种语言(英语、印地语、旁遮普语等)的文本数据,数据集未被打乱。数据集的特征为文本类型,数据类型为large_string。数据集包含一个训练集分割,训练集的大小为145660483118字节,包含22482876个样本。数据集的下载大小为60314135135字节,数据集总大小为145660483118字节。
This dataset includes multiple configurations and data files, with the main feature being text of type large_string. The dataset is divided into a training set, containing 22482876 samples with a total byte size of 145660483118. The dataset supports multiple languages including English, Hindi, Punjabi, and their synthetic versions.
提供机构:
kdcyberdude
原始信息汇总
数据集概述
配置信息
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
数据集信息
- 特征:
- 名称: text
- 数据类型: large_string
- 分割:
- 名称: train
- 字节数: 145660483118
- 样本数: 22482876
- 下载大小: 60314135135
- 数据集大小: 145660483118
其他信息
- 语言: en, hi, pa, pa_synth_guru_ds, pa_synth_latn_ds, pa_synth_it_ds
- 数据集状态: unshuffle



