five

tatoeba-indic

收藏
魔搭社区2025-12-05 更新2025-06-21 收录
下载链接:
https://modelscope.cn/datasets/sarvamai/tatoeba-indic
下载链接
链接失效反馈
官方服务:
资源简介:
# Tatoeba Benchmark (Indian languages only) This benchmark is prepared from the [2023 Tatoeba Challenge](https://github.com/Helsinki-NLP/Tatoeba-Challenge/blob/master/data/README-v2023-09-26.md), by extracting the `dev` and `test` sets for languages spoken in the Indian Republic. The code to download and process the data can be found here in the repo: `data_prep/original_v1/extract.py` Note: This is not the official version of Tatoeba benchmark. Just a processed mirror for Indian languages, made available in HuggingFace for ease of use. ## Languages | Language code | Language name | |---------------|---------------| | asm | Assamese | | awa | Awadhi | | ben | Bengali | | bho | Bhojpuri | | brx | Bodo | | guj | Gujarati | | hin | Hindi | | kan | Kannada | | kha | Khasi | | kok | Konkani | | lah | Lahnda | | mai | Maithili | | mal | Malayalam | | mar | Marathi | | mni | Manipuri | | nep | Nepali | | ori | Odia | | pan | Panjabi | | pli | Pali | | san | Sanskrit | | sat | Santali | | snd | Sindhi | | tam | Tamil | | tel | Telugu | | urd | Urdu |

# 仅针对印度语言的塔托埃巴基准测试集(Tatoeba Benchmark) 本基准测试集源自[2023年塔托埃巴挑战赛(2023 Tatoeba Challenge)](https://github.com/Helsinki-NLP/Tatoeba-Challenge/blob/master/data/README-v2023-09-26.md),通过提取印度共和国境内使用语言的开发集(dev)与测试集(test)构建而成。 用于下载并处理该数据集的代码可在本仓库的`data_prep/original_v1/extract.py`路径下获取。 注意:本数据集并非塔托埃巴基准测试集的官方版本,仅为针对印度语言的经过处理的镜像版本,已上传至HuggingFace平台以方便使用。 ## 语言 | 语言代码 | 语言名称 | |---------------|---------------| | asm | 阿萨姆语(Assamese) | | awa | 阿瓦迪语(Awadhi) | | ben | 孟加拉语(Bengali) | | bho | 博杰普尔语(Bhojpuri) | | brx | 博多语(Bodo) | | guj | 古吉拉特语(Gujarati) | | hin | 印地语(Hindi) | | kan | 卡纳达语(Kannada) | | kha | 卡西语(Khasi) | | kok | 孔卡尼语(Konkani) | | lah | 伦达语(Lahnda) | | mai | 迈蒂利语(Maithili) | | mal | 马拉雅拉姆语(Malayalam) | | mar | 马拉地语(Marathi) | | mni | 曼尼普尔语(Manipuri) | | nep | 尼泊尔语(Nepali) | | ori | 奥里亚语(Odia) | | pan | 旁遮普语(Panjabi) | | pli | 巴利语(Pali) | | san | 梵语(Sanskrit) | | sat | 桑塔利语(Santali) | | snd | 信德语(Sindhi) | | tam | 泰米尔语(Tamil) | | tel | 泰卢固语(Telugu) | | urd | 乌尔都语(Urdu) |
提供机构:
maas
创建时间:
2025-06-11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作