ai4bharat/samanantar
收藏数据集概述
名称: Samanantar
描述: Samanantar是最大的公开可用平行语料库集合,涵盖11种印度语言:阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语、泰卢固语。该语料库包含4960万对从英语到印度语言的句子对。
语言: 包含英语(en)和11种印度语言:阿萨姆语(as)、孟加拉语(bn)、古吉拉特语(gu)、印地语(hi)、卡纳达语(kn)、马拉雅拉姆语(ml)、马拉地语(mr)、奥里亚语(or)、旁遮普语(pa)、泰米尔语(ta)、泰卢固语(te)。
许可证: Creative Commons Attribution-NonCommercial 4.0 International (cc-by-nc-4.0)
多语言性: 翻译
任务类别: 文本生成、翻译
数据集结构:
- 数据实例: 包含索引(
idx)、源语言句子(src)、目标语言句子(tgt)和数据来源(data_source)。 - 数据字段:
idx: 整数,ID。src: 字符串,源语言(英语)句子。tgt: 字符串,目标语言(11种印度语言之一)句子。data_source: 字符串,数据来源,可能包括多种来源如anuvaad_catchnews, anuvaad_DD_National等。
创建信息:
- 许可证信息: 数据集遵循Creative Commons Attribution-NonCommercial 4.0 International许可证。
- 贡献者: 感谢@albertvillanova添加此数据集。
引用信息:
@misc{ramesh2021samanantar, title={Samanantar: The Largest Publicly Available Parallel Corpora Collection for 11 Indic Languages}, author={Gowtham Ramesh and Sumanth Doddapaneni and Aravinth Bheemaraj and Mayank Jobanputra and Raghavan AK and Ajitesh Sharma and Sujit Sahoo and Harshita Diddee and Mahalakshmi J and Divyanshu Kakwani and Navneet Kumar and Aswin Pradeep and Srihari Nagaraj and Kumar Deepak and Vivek Raghavan and Anoop Kunchukuttan and Pratyush Kumar and Mitesh Shantadevi Khapra}, year={2021}, eprint={2104.05596}, archivePrefix={arXiv}, primaryClass={cs.CL} }




