satpalsr/indicCorpv2
收藏Hugging Face2023-07-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/satpalsr/indicCorpv2
下载链接
链接失效反馈官方服务:
资源简介:
IndicCorpv2是最大的印度语言文本集合,包含20.9亿个标记,其中14.4亿标记对应于23种印度语言,6.5亿标记对应于印度英语内容。这些数据主要从印度网站收集。
IndicCorpv2是最大的印度语言文本集合,包含20.9亿个标记,其中14.4亿标记对应于23种印度语言,6.5亿标记对应于印度英语内容。这些数据主要从印度网站收集。
提供机构:
satpalsr
原始信息汇总
数据集概述
数据集名称
IndicCorpv2
数据集描述
- 语言: 包含24种语言,包括:as, brx, bn, doi, en, gom, gu, hi, kha, kn, ks, mai, ml, mni, mr, ne, or, pa, sa, sat, sd, ta, te, ur。
- 数据量: 总共20.9亿个tokens,其中14.4亿tokens对应23种Indic语言,6.5亿tokens为印度英语内容。
- 数据来源: 内容精选自印度网站。
许可证
cc0-1.0
任务类别
text-generation
引用信息
@article{Doddapaneni2022towards, title={Towards Leaving No Indic Language Behind: Building Monolingual Corpora, Benchmark and Models for Indic Languages}, author={Sumanth Doddapaneni and Rahul Aralikatte and Gowtham Ramesh and Shreyansh Goyal and Mitesh M. Khapra and Anoop Kunchukuttan and Pratyush Kumar}, journal={ArXiv}, year={2022}, volume={abs/2212.05409} }



