CorIL
收藏arXiv2025-09-24 更新2025-09-26 收录
下载链接:
https://_India
下载链接
链接失效反馈官方服务:
资源简介:
CorIL是一个大规模、高质量的平行语料库,覆盖了11种印度语言(英语、泰卢固语、印地语、旁遮普语、奥里亚语、克什米尔语、信德语、多格拉语、卡纳达语、乌尔都语和古吉拉特语),共计772,000双语句子对。该数据集经过精心策划,系统地分为三个关键领域:政府、健康和通用,以支持领域感知的机器翻译研究和促进有效的领域适应。CorIL旨在显著提高印度语言高质量训练数据的可用性,并为机器翻译研究提供一个宝贵的资源。
CorIL is a large-scale, high-quality parallel corpus covering 11 Indian languages including English, Telugu, Hindi, Punjabi, Odia, Kashmiri, Sindhi, Dogri, Kannada, Urdu and Gujarati, with a total of 772,000 bilingual sentence pairs. This dataset has been meticulously curated and systematically divided into three key domains: government, healthcare and general, to support domain-aware machine translation research and facilitate effective domain adaptation. CorIL aims to significantly improve the availability of high-quality training data for Indian languages and provide a valuable resource for machine translation research.
提供机构:
印度理工学院帕特纳分校计算机科学与工程学院, CDAC诺伊达的SNLP实验室, 曼尼帕尔理工学院计算机科学与工程学院, 迪鲁拜·安巴尼大学甘地纳加尔计算机科学与工程学院, IIIT布巴内斯瓦尔计算机科学与工程学院, IIIT海得拉巴LTRC, 旁遮普大学计算机科学与工程学院, Jammu女子政府学院计算机科学与工程学院, 克什米尔大学语言学系, CDAC班加罗尔VLSI设计组, 苏拉特SVNIT人工智能系
创建时间:
2025-09-24
搜集汇总
数据集介绍
构建方式
在印度语言资源稀缺的背景下,CorIL数据集通过多机构协作构建了覆盖11种语言的大规模平行语料库。构建过程采用严格的专家筛选机制,语言专家需具备硕士以上学历并通过在线翻译能力评估,确保翻译质量。数据源主要来自政府公开文件、医疗健康资料和通用领域文本,所有材料均经过版权合规审核。语料清洗环节采用自动化与人工结合的方式,去除特殊字符、重复标点及异常长度句子,并对缩写、重音符号等进行标准化处理。翻译流程采用机器翻译后编辑模式,通过自主研发的Post-Edit-Me平台实现外部机构与内部语言专家的协同工作,最终形成包含77.2万句对的优质语料。
特点
CorIL数据集最显著的特点是覆盖印度三大关键领域——政务、医疗和通用领域,每个领域均包含精细划分的子类别。语料库特别注重低资源语言的原始文本采集,约40%的句子直接源自低资源印度语言的原生创作,有效避免了翻译体现象对语言本真性的影响。数据集提供多层级语言标注,包含词性标注、命名实体识别、形态特征分析和组块分析等133,000句的深层标注数据。语言对设计具有前瞻性,不仅包含英语与印度语言的互译,更重点构建了印度语言间的直接互译对,如印地语与旁遮普语、泰卢固语等10种语言的25个翻译方向,为研究跨脚本迁移学习提供了独特资源。
使用方法
该数据集支持多种机器翻译研究范式,研究者可基于领域划分进行域适应训练,利用政务、医疗和通用领域的独立数据子集探索领域特异性对翻译性能的影响。数据集提供标准化的训练/开发/测试集划分,每个语言对在各领域均包含500句的平衡测试集,并采用精确匹配和COMET嵌入相似度检测确保数据无重叠。使用时可结合IndicTrans2、NLLB和BhashaVerse等预训练模型进行双语或多语微调,特别适合研究低资源语言在Perso-Arabic文字与印度文字间的跨脚本迁移现象。数据集还支持语言学分析任务,标注子集可用于研究印度语言的形态丰富性和句法结构差异,为多任务学习提供基础设施。
背景与挑战
背景概述
印度作为全球语言多样性最为丰富的国家之一,拥有超过120种主要语言及约1600种方言,其中22种被宪法列为官方语言。尽管多语言神经机器翻译技术近年来取得显著进展,高质量印度语言平行语料库仍显匮乏,尤其在跨领域应用方面存在明显短板。2025年,由印度理工学院帕特纳分校、IIIT海得拉巴语言技术研究中心等十余家机构联合发布的CorIL数据集,致力于填补这一空白。该数据集涵盖英语、印地语、泰卢固语等11种语言,包含77.2万句对,并系统划分为政府、医疗与通用三大领域,旨在推动领域感知的机器翻译研究,为印度多语言社会的信息公平与数字包容提供基础设施支撑。
当前挑战
CorIL数据集面临双重挑战:在领域问题层面,印度语言机器翻译需应对形态复杂性(如梵文衍生文字的连字符规则)、语序差异(印地语SOV结构与英语SVO结构冲突)及低资源语言(如多格拉语、克什米尔语)的数据稀疏问题;在构建过程中,需克服多脚本编码统一(如信德语同时使用波斯-阿拉伯文与天城文)、翻译真实性保障(避免通过英语中转导致的'翻译腔'现象)以及专业领域术语对齐(如医疗文本中的地方性病理表述)等难题。此外,数据清洗需处理网页抓取产生的符号冗余、方言变体归一化,并建立跨语言的质量评估体系以应对COMET等自动评估工具对低资源语言支持不足的技术局限。
常用场景
经典使用场景
在印度多语言机器翻译研究领域,CorIL数据集作为高质量平行语料库的典型应用体现在对11种印度语言跨领域翻译任务的基准测试。该数据集通过覆盖政府、医疗和通用三大关键领域,为研究者提供了系统评估多语言神经机器翻译模型性能的标准化平台。特别是在低资源语言如多格里语、克什米尔语和信德语的翻译任务中,CorIL通过包含40%原生低资源语言文本的独特设计,有效解决了传统翻译数据中存在的翻译腔问题,为模型在真实语言环境下的表现提供了更准确的评估依据。
实际应用
在实际应用层面,CorIL数据集为印度多语言社会的信息无障碍建设提供了技术支撑。政府领域数据可用于官方文件的多语言发布系统,确保政策信息在不同语言群体间的准确传达。医疗领域语料则助力开发跨语言医患沟通工具,特别是在农村地区医疗资源匮乏的场景下,机器翻译系统能有效缓解语言障碍带来的医疗服务不平等问题。此外,数据集涵盖的日常交流内容为开发面向旅游、商务等场景的实时翻译应用提供了语言资源保障。
衍生相关工作
基于CorIL数据集衍生的经典研究工作主要体现在三大主流模型的系统性能评估上。IndicTrans2模型在该数据集上展现了针对印度文字语言的优势特性,而NLLB模型则凭借其大规模多语言训练架构在波斯-阿拉伯文字语言处理上表现突出。BhashaVerse模型通过多任务学习框架实现了翻译质量评估与语法纠错的协同优化。这些研究不仅建立了印度语言翻译的性能基准,更揭示了双语微调策略在领域适应中的显著效果,为后续低资源语言翻译研究提供了重要方法论参考。
以上内容由遇见数据集搜集并总结生成



