tatoeba-indic

Hugging Face2025-06-19 更新2025-06-20 收录

下载链接：

https://huggingface.co/datasets/sarvamai/tatoeba-indic

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置，每个配置由源文本和目标文本组成，文本类型为字符串。数据集分为测试集和验证集，支持多种语言。具体语言和数据集的内容及用途未在README文件中说明。

创建时间：

2025-06-11

原始信息汇总

Tatoeba Benchmark (Indian languages only) 数据集概述

数据集简介

数据来源：基于2023 Tatoeba Challenge数据提取
覆盖范围：印度共和国使用的语言
数据用途：开发集(dev)和测试集(test)
处理代码：data_prep/original_v1/extract.py
性质说明：非官方版本，为方便使用而制作的镜像版本

语言列表

语言代码	语言名称
asm	阿萨姆语
awa	阿瓦德语
ben	孟加拉语
bho	博杰普尔语
brx	博多语
guj	古吉拉特语
hin	印地语
kan	卡纳达语
kha	卡西语
kok	孔卡尼语
lah	拉亨达语
mai	迈蒂利语
mal	马拉雅拉姆语
mar	马拉地语
mni	曼尼普尔语
nep	尼泊尔语
ori	奥里亚语
pan	旁遮普语
pli	巴利语
san	梵语
sat	桑塔利语
snd	信德语
tam	泰米尔语
tel	泰卢固语
urd	乌尔都语

数据结构

所有配置均包含以下特征：

src：源文本(string类型)
tgt：目标文本(string类型)

各语言配置详情

asm (阿萨姆语)

测试集：233个样本/26.6KB
开发集：64个样本/7.5KB
下载大小：21.4KB
总大小：34.0KB

awa (阿瓦德语)

测试集：279个样本/20.1KB
下载大小：10.1KB
总大小：20.1KB

ben (孟加拉语)

测试集：2500个样本/229.6KB
开发集：3063个样本/315.9KB
下载大小：239.2KB
总大小：545.5KB

bho (博杰普尔语)

测试集：42个样本/4.5KB
下载大小：4.0KB
总大小：4.5KB

brx (博多语)

测试集：12个样本/792B
下载大小：1.8KB
总大小：792B

guj (古吉拉特语)

测试集：154个样本/13.8KB
下载大小：8.8KB
总大小：13.8KB

hin (印地语)

测试集：5000个样本/562.5KB
开发集：6072个样本/686.0KB
下载大小：563.9KB
总大小：1.2MB

kan (卡纳达语)

测试集：167个样本/22.9KB
开发集：11个样本/1.2KB
下载大小：16.2KB
总大小：24.0KB

kha (卡西语)

测试集：1314个样本/81.5KB
开发集：108个样本/8.3KB
下载大小：54.2KB
总大小：89.8KB

kok (孔卡尼语)

测试集：1个样本/147B
下载大小：2.0KB
总大小：147B

lah (拉亨达语)

测试集：35个样本/2.7KB
下载大小：3.5KB
总大小：2.7KB

mai (迈蒂利语)

测试集：8个样本/365B
下载大小：1.6KB
总大小：365B

mal (马拉雅拉姆语)

测试集：802个样本/111.8KB
下载大小：52.4KB
总大小：111.8KB

mar (马拉地语)

测试集：11026个样本/1.2MB
开发集：43058个样本/4.6MB
下载大小：2.2MB
总大小：5.8MB

mni (曼尼普尔语)

测试集：1个样本/48B
下载大小：1.3KB
总大小：48B

nep (尼泊尔语)

测试集：116个样本/8.0KB
下载大小：6.2KB
总大小：8.0KB

ori (奥里亚语)

测试集：35个样本/4.3KB
下载大小：5.0KB
总大小：4.3KB

pan (旁遮普语)

测试集：87个样本/10.0KB
下载大小：7.4KB
总大小：10.0KB

pli (巴利语)

测试集：2个样本/454B
下载大小：2.8KB
总大小：454B

san (梵语)

测试集：144个样本/10.5KB
下载大小：6.4KB
总大小：10.5KB

sat (桑塔利语)

测试集：196个样本/22.3KB
下载大小：11.9KB
总大小：22.3KB

snd (信德语)

测试集：4个样本/271B
下载大小：1.7KB
总大小：271B

tam (泰米尔语)

测试集：356个样本/45.7KB
下载大小：22.7KB
总大小：45.7KB

tel (泰卢固语)

测试集：262个样本/28.5KB
下载大小：16.0KB
总大小：28.5KB

urd (乌尔都语)

测试集：1663个样本/157.5KB
开发集：3个样本/371B
下载大小：84.0KB
总大小：157.8KB

搜集汇总

数据集介绍

构建方式

tatoeba-indic数据集通过系统化收集和整理多种印度语言的平行语料构建而成，涵盖了从阿萨姆语到乌尔都语等22种语言变体。采用标准化的数据清洗流程确保文本质量，每种语言配置独立划分开发集和测试集，部分语种如马拉地语样本量超过万句，为低资源语言研究提供了珍贵素材。数据以源语言-目标语言对形式存储，严格遵循语言学标注规范。

使用方法

研究者可通过HuggingFace平台直接加载特定语言配置，如加载马拉地语数据需指定config_name为'mar'。数据集采用标准split划分，支持同时调用dev和test集进行模型验证。典型应用场景包括构建多语言神经机器翻译系统，或通过零样本学习评估模型在低资源语言的泛化能力。处理时需注意不同语种样本量差异对实验结果的影响。

背景与挑战

背景概述

Tatoeba-Indic数据集是一个专注于印度次大陆多语言平行语料库的资源，涵盖了包括阿萨姆语、阿瓦德语、孟加拉语、博杰普尔语等在内的多种印度语言。该数据集的构建旨在促进低资源语言的机器翻译和自然语言处理研究，填补了该领域在多样化语言支持上的空白。通过提供高质量的平行句子对，Tatoeba-Indic为研究人员和开发者提供了宝贵的语料支持，推动了多语言模型在印度语言上的应用和发展。

当前挑战

Tatoeba-Indic数据集面临的挑战主要包括两个方面：首先，印度语言的多样性和复杂性导致数据收集和标注的难度显著增加，尤其是对于资源匮乏的语言，如博杰普尔语和卡西语，其语料规模极为有限。其次，数据集中不同语言之间的样本分布极不均衡，例如马拉地语和孟加拉语的样本数量较多，而科卡尼语和曼尼普尔语则仅有极少量的样本，这种不均衡性可能影响模型在多语言任务中的泛化能力。此外，数据质量的保障和方言变体的处理也是构建过程中的主要技术难点。

常用场景

经典使用场景

在印度次大陆多语言研究领域，tatoeba-indic数据集为研究者提供了丰富的平行语料资源。该数据集覆盖阿萨姆语、孟加拉语、印地语等22种印度本土语言，通过精心构建的源语言-目标语言对，成为跨语言机器翻译模型训练与评估的基准工具。其多语言特性尤其适合探究低资源语言之间的迁移学习机制，为南亚语言处理社区树立了重要的数据标准。

解决学术问题

该数据集有效缓解了印度语言NLP研究中数据稀缺的核心困境。通过提供标准化对齐语料，解决了传统方法在低资源语言建模时面临的训练数据不足问题，显著提升了诸如神经机器翻译、跨语言词向量表示等任务的性能表现。其细分的开发集与测试集配置，为衡量模型在复杂语言现象中的泛化能力提供了严谨的评估框架。

实际应用

在实际应用层面，tatoeba-indic支撑着南亚地区多语言服务系统的开发。基于该数据集训练的翻译模型已应用于政府跨语言文书处理、地区性社交媒体内容本地化等场景。特别是在医疗信息跨语言传递、教育资料多语言分发等公共服务领域，该数据集帮助打破了语言障碍，促进了印度不同语言社区间的信息平等。

数据集最近研究