five

satpalsr/indicCorpv2

收藏
Hugging Face2023-07-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/satpalsr/indicCorpv2
下载链接
链接失效反馈
官方服务:
资源简介:
IndicCorpv2是最大的印度语言文本集合,包含20.9亿个标记,其中14.4亿标记对应于23种印度语言,6.5亿标记对应于印度英语内容。这些数据主要从印度网站收集。

IndicCorpv2是最大的印度语言文本集合,包含20.9亿个标记,其中14.4亿标记对应于23种印度语言,6.5亿标记对应于印度英语内容。这些数据主要从印度网站收集。
提供机构:
satpalsr
原始信息汇总

数据集概述

数据集名称

IndicCorpv2

数据集描述

  • 语言: 包含24种语言,包括:as, brx, bn, doi, en, gom, gu, hi, kha, kn, ks, mai, ml, mni, mr, ne, or, pa, sa, sat, sd, ta, te, ur。
  • 数据量: 总共20.9亿个tokens,其中14.4亿tokens对应23种Indic语言,6.5亿tokens为印度英语内容。
  • 数据来源: 内容精选自印度网站。

许可证

cc0-1.0

任务类别

text-generation

引用信息

@article{Doddapaneni2022towards, title={Towards Leaving No Indic Language Behind: Building Monolingual Corpora, Benchmark and Models for Indic Languages}, author={Sumanth Doddapaneni and Rahul Aralikatte and Gowtham Ramesh and Shreyansh Goyal and Mitesh M. Khapra and Anoop Kunchukuttan and Pratyush Kumar}, journal={ArXiv}, year={2022}, volume={abs/2212.05409} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作