satpalsr/indicCorpv2

Name: satpalsr/indicCorpv2
Creator: satpalsr
Published: 2023-07-31 08:34:06
License: 暂无描述

Hugging Face2023-07-31 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/satpalsr/indicCorpv2

下载链接

链接失效反馈

官方服务：

资源简介：

IndicCorpv2是最大的印度语言文本集合，包含20.9亿个标记，其中14.4亿标记对应于23种印度语言，6.5亿标记对应于印度英语内容。这些数据主要从印度网站收集。

提供机构：

satpalsr

原始信息汇总

数据集概述

数据集名称

IndicCorpv2

数据集描述

语言: 包含24种语言，包括：as, brx, bn, doi, en, gom, gu, hi, kha, kn, ks, mai, ml, mni, mr, ne, or, pa, sa, sat, sd, ta, te, ur。
数据量: 总共20.9亿个tokens，其中14.4亿tokens对应23种Indic语言，6.5亿tokens为印度英语内容。
数据来源: 内容精选自印度网站。

许可证

cc0-1.0

任务类别

text-generation

引用信息

@article{Doddapaneni2022towards, title={Towards Leaving No Indic Language Behind: Building Monolingual Corpora, Benchmark and Models for Indic Languages}, author={Sumanth Doddapaneni and Rahul Aralikatte and Gowtham Ramesh and Shreyansh Goyal and Mitesh M. Khapra and Anoop Kunchukuttan and Pratyush Kumar}, journal={ArXiv}, year={2022}, volume={abs/2212.05409} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集