tatoeba-indic
收藏Hugging Face2025-06-19 更新2025-06-20 收录
下载链接:
https://huggingface.co/datasets/sarvamai/tatoeba-indic
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个配置,每个配置由源文本和目标文本组成,文本类型为字符串。数据集分为测试集和验证集,支持多种语言。具体语言和数据集的内容及用途未在README文件中说明。
创建时间:
2025-06-11
原始信息汇总
Tatoeba Benchmark (Indian languages only) 数据集概述
数据集简介
- 数据来源:基于2023 Tatoeba Challenge数据提取
- 覆盖范围:印度共和国使用的语言
- 数据用途:开发集(dev)和测试集(test)
- 处理代码:
data_prep/original_v1/extract.py - 性质说明:非官方版本,为方便使用而制作的镜像版本
语言列表
| 语言代码 | 语言名称 |
|---|---|
| asm | 阿萨姆语 |
| awa | 阿瓦德语 |
| ben | 孟加拉语 |
| bho | 博杰普尔语 |
| brx | 博多语 |
| guj | 古吉拉特语 |
| hin | 印地语 |
| kan | 卡纳达语 |
| kha | 卡西语 |
| kok | 孔卡尼语 |
| lah | 拉亨达语 |
| mai | 迈蒂利语 |
| mal | 马拉雅拉姆语 |
| mar | 马拉地语 |
| mni | 曼尼普尔语 |
| nep | 尼泊尔语 |
| ori | 奥里亚语 |
| pan | 旁遮普语 |
| pli | 巴利语 |
| san | 梵语 |
| sat | 桑塔利语 |
| snd | 信德语 |
| tam | 泰米尔语 |
| tel | 泰卢固语 |
| urd | 乌尔都语 |
数据结构
所有配置均包含以下特征:
- src:源文本(string类型)
- tgt:目标文本(string类型)
各语言配置详情
asm (阿萨姆语)
- 测试集:233个样本/26.6KB
- 开发集:64个样本/7.5KB
- 下载大小:21.4KB
- 总大小:34.0KB
awa (阿瓦德语)
- 测试集:279个样本/20.1KB
- 下载大小:10.1KB
- 总大小:20.1KB
ben (孟加拉语)
- 测试集:2500个样本/229.6KB
- 开发集:3063个样本/315.9KB
- 下载大小:239.2KB
- 总大小:545.5KB
bho (博杰普尔语)
- 测试集:42个样本/4.5KB
- 下载大小:4.0KB
- 总大小:4.5KB
brx (博多语)
- 测试集:12个样本/792B
- 下载大小:1.8KB
- 总大小:792B
guj (古吉拉特语)
- 测试集:154个样本/13.8KB
- 下载大小:8.8KB
- 总大小:13.8KB
hin (印地语)
- 测试集:5000个样本/562.5KB
- 开发集:6072个样本/686.0KB
- 下载大小:563.9KB
- 总大小:1.2MB
kan (卡纳达语)
- 测试集:167个样本/22.9KB
- 开发集:11个样本/1.2KB
- 下载大小:16.2KB
- 总大小:24.0KB
kha (卡西语)
- 测试集:1314个样本/81.5KB
- 开发集:108个样本/8.3KB
- 下载大小:54.2KB
- 总大小:89.8KB
kok (孔卡尼语)
- 测试集:1个样本/147B
- 下载大小:2.0KB
- 总大小:147B
lah (拉亨达语)
- 测试集:35个样本/2.7KB
- 下载大小:3.5KB
- 总大小:2.7KB
mai (迈蒂利语)
- 测试集:8个样本/365B
- 下载大小:1.6KB
- 总大小:365B
mal (马拉雅拉姆语)
- 测试集:802个样本/111.8KB
- 下载大小:52.4KB
- 总大小:111.8KB
mar (马拉地语)
- 测试集:11026个样本/1.2MB
- 开发集:43058个样本/4.6MB
- 下载大小:2.2MB
- 总大小:5.8MB
mni (曼尼普尔语)
- 测试集:1个样本/48B
- 下载大小:1.3KB
- 总大小:48B
nep (尼泊尔语)
- 测试集:116个样本/8.0KB
- 下载大小:6.2KB
- 总大小:8.0KB
ori (奥里亚语)
- 测试集:35个样本/4.3KB
- 下载大小:5.0KB
- 总大小:4.3KB
pan (旁遮普语)
- 测试集:87个样本/10.0KB
- 下载大小:7.4KB
- 总大小:10.0KB
pli (巴利语)
- 测试集:2个样本/454B
- 下载大小:2.8KB
- 总大小:454B
san (梵语)
- 测试集:144个样本/10.5KB
- 下载大小:6.4KB
- 总大小:10.5KB
sat (桑塔利语)
- 测试集:196个样本/22.3KB
- 下载大小:11.9KB
- 总大小:22.3KB
snd (信德语)
- 测试集:4个样本/271B
- 下载大小:1.7KB
- 总大小:271B
tam (泰米尔语)
- 测试集:356个样本/45.7KB
- 下载大小:22.7KB
- 总大小:45.7KB
tel (泰卢固语)
- 测试集:262个样本/28.5KB
- 下载大小:16.0KB
- 总大小:28.5KB
urd (乌尔都语)
- 测试集:1663个样本/157.5KB
- 开发集:3个样本/371B
- 下载大小:84.0KB
- 总大小:157.8KB
搜集汇总
数据集介绍

构建方式
tatoeba-indic数据集通过系统化收集和整理多种印度语言的平行语料构建而成,涵盖了从阿萨姆语到乌尔都语等22种语言变体。采用标准化的数据清洗流程确保文本质量,每种语言配置独立划分开发集和测试集,部分语种如马拉地语样本量超过万句,为低资源语言研究提供了珍贵素材。数据以源语言-目标语言对形式存储,严格遵循语言学标注规范。
使用方法
研究者可通过HuggingFace平台直接加载特定语言配置,如加载马拉地语数据需指定config_name为'mar'。数据集采用标准split划分,支持同时调用dev和test集进行模型验证。典型应用场景包括构建多语言神经机器翻译系统,或通过零样本学习评估模型在低资源语言的泛化能力。处理时需注意不同语种样本量差异对实验结果的影响。
背景与挑战
背景概述
Tatoeba-Indic数据集是一个专注于印度次大陆多语言平行语料库的资源,涵盖了包括阿萨姆语、阿瓦德语、孟加拉语、博杰普尔语等在内的多种印度语言。该数据集的构建旨在促进低资源语言的机器翻译和自然语言处理研究,填补了该领域在多样化语言支持上的空白。通过提供高质量的平行句子对,Tatoeba-Indic为研究人员和开发者提供了宝贵的语料支持,推动了多语言模型在印度语言上的应用和发展。
当前挑战
Tatoeba-Indic数据集面临的挑战主要包括两个方面:首先,印度语言的多样性和复杂性导致数据收集和标注的难度显著增加,尤其是对于资源匮乏的语言,如博杰普尔语和卡西语,其语料规模极为有限。其次,数据集中不同语言之间的样本分布极不均衡,例如马拉地语和孟加拉语的样本数量较多,而科卡尼语和曼尼普尔语则仅有极少量的样本,这种不均衡性可能影响模型在多语言任务中的泛化能力。此外,数据质量的保障和方言变体的处理也是构建过程中的主要技术难点。
常用场景
经典使用场景
在印度次大陆多语言研究领域,tatoeba-indic数据集为研究者提供了丰富的平行语料资源。该数据集覆盖阿萨姆语、孟加拉语、印地语等22种印度本土语言,通过精心构建的源语言-目标语言对,成为跨语言机器翻译模型训练与评估的基准工具。其多语言特性尤其适合探究低资源语言之间的迁移学习机制,为南亚语言处理社区树立了重要的数据标准。
解决学术问题
该数据集有效缓解了印度语言NLP研究中数据稀缺的核心困境。通过提供标准化对齐语料,解决了传统方法在低资源语言建模时面临的训练数据不足问题,显著提升了诸如神经机器翻译、跨语言词向量表示等任务的性能表现。其细分的开发集与测试集配置,为衡量模型在复杂语言现象中的泛化能力提供了严谨的评估框架。
实际应用
在实际应用层面,tatoeba-indic支撑着南亚地区多语言服务系统的开发。基于该数据集训练的翻译模型已应用于政府跨语言文书处理、地区性社交媒体内容本地化等场景。特别是在医疗信息跨语言传递、教育资料多语言分发等公共服务领域,该数据集帮助打破了语言障碍,促进了印度不同语言社区间的信息平等。
数据集最近研究
最新研究方向
在自然语言处理领域,多语言翻译模型的研究正日益受到关注,尤其是针对低资源语言的翻译技术。tatoeba-indic数据集作为涵盖多种印度次大陆语言的双语平行语料库,为研究者提供了宝贵的资源。近年来,该数据集被广泛应用于探索跨语言迁移学习、零样本翻译以及多语言预训练模型的性能优化。特别是在印度语言社区中,研究者利用该数据集开发了针对阿萨姆语、孟加拉语、印地语等低资源语言的专用翻译模型,显著提升了这些语言在机器翻译任务中的表现。随着全球对语言多样性的重视,tatoeba-indic数据集在推动语言技术公平性和包容性方面发挥了重要作用。
以上内容由遇见数据集搜集并总结生成



