tatoeba-indic
收藏魔搭社区2025-12-05 更新2025-06-21 收录
下载链接:
https://modelscope.cn/datasets/sarvamai/tatoeba-indic
下载链接
链接失效反馈官方服务:
资源简介:
# Tatoeba Benchmark (Indian languages only)
This benchmark is prepared from the [2023 Tatoeba Challenge](https://github.com/Helsinki-NLP/Tatoeba-Challenge/blob/master/data/README-v2023-09-26.md), by extracting the `dev` and `test` sets for languages spoken in the Indian Republic.
The code to download and process the data can be found here in the repo: `data_prep/original_v1/extract.py`
Note: This is not the official version of Tatoeba benchmark. Just a processed mirror for Indian languages, made available in HuggingFace for ease of use.
## Languages
| Language code | Language name |
|---------------|---------------|
| asm | Assamese |
| awa | Awadhi |
| ben | Bengali |
| bho | Bhojpuri |
| brx | Bodo |
| guj | Gujarati |
| hin | Hindi |
| kan | Kannada |
| kha | Khasi |
| kok | Konkani |
| lah | Lahnda |
| mai | Maithili |
| mal | Malayalam |
| mar | Marathi |
| mni | Manipuri |
| nep | Nepali |
| ori | Odia |
| pan | Panjabi |
| pli | Pali |
| san | Sanskrit |
| sat | Santali |
| snd | Sindhi |
| tam | Tamil |
| tel | Telugu |
| urd | Urdu |
# 仅针对印度语言的塔托埃巴基准测试集(Tatoeba Benchmark)
本基准测试集源自[2023年塔托埃巴挑战赛(2023 Tatoeba Challenge)](https://github.com/Helsinki-NLP/Tatoeba-Challenge/blob/master/data/README-v2023-09-26.md),通过提取印度共和国境内使用语言的开发集(dev)与测试集(test)构建而成。
用于下载并处理该数据集的代码可在本仓库的`data_prep/original_v1/extract.py`路径下获取。
注意:本数据集并非塔托埃巴基准测试集的官方版本,仅为针对印度语言的经过处理的镜像版本,已上传至HuggingFace平台以方便使用。
## 语言
| 语言代码 | 语言名称 |
|---------------|---------------|
| asm | 阿萨姆语(Assamese) |
| awa | 阿瓦迪语(Awadhi) |
| ben | 孟加拉语(Bengali) |
| bho | 博杰普尔语(Bhojpuri) |
| brx | 博多语(Bodo) |
| guj | 古吉拉特语(Gujarati) |
| hin | 印地语(Hindi) |
| kan | 卡纳达语(Kannada) |
| kha | 卡西语(Khasi) |
| kok | 孔卡尼语(Konkani) |
| lah | 伦达语(Lahnda) |
| mai | 迈蒂利语(Maithili) |
| mal | 马拉雅拉姆语(Malayalam) |
| mar | 马拉地语(Marathi) |
| mni | 曼尼普尔语(Manipuri) |
| nep | 尼泊尔语(Nepali) |
| ori | 奥里亚语(Odia) |
| pan | 旁遮普语(Panjabi) |
| pli | 巴利语(Pali) |
| san | 梵语(Sanskrit) |
| sat | 桑塔利语(Santali) |
| snd | 信德语(Sindhi) |
| tam | 泰米尔语(Tamil) |
| tel | 泰卢固语(Telugu) |
| urd | 乌尔都语(Urdu) |
提供机构:
maas
创建时间:
2025-06-11



