INDIC-MARCO
收藏arXiv2023-12-15 更新2024-07-24 收录
下载链接:
https://github.com/saifulhaq95/IndicIRSuite
下载链接
链接失效反馈官方服务:
资源简介:
INDIC-MARCO是由印度理工学院孟买分校计算机科学与工程系创建的多语言数据集,旨在支持11种印度语言的神经信息检索研究。该数据集包含约880万篇文档、100万条查询和3900万训练三元组,覆盖了从阿萨姆语到泰卢固语的广泛语言。数据集的创建过程涉及使用机器翻译技术将原始的MSMARCO数据集翻译成目标语言,确保了数据的高质量和多样性。INDIC-MARCO的应用领域主要集中在提升非英语语言的信息检索技术,特别是在资源较少的印度语言中,为相关研究和应用提供了重要的数据支持。
INDIC-MARCO is a multilingual dataset developed by the Department of Computer Science and Engineering, Indian Institute of Technology Bombay, designed to support neural information retrieval research for 11 Indian languages. It contains approximately 8.8 million documents, 1 million queries, and 39 million training triples, covering a broad spectrum of languages spanning from Assamese to Telugu. The dataset was constructed by translating the original MSMARCO dataset into target languages using machine translation technologies, ensuring high data quality and diversity. The primary application focus of INDIC-MARCO lies in advancing information retrieval technologies for non-English languages, especially low-resource Indian languages, providing critical data support for relevant research and applications.
提供机构:
印度理工学院孟买分校计算机科学与工程系
创建时间:
2023-12-15
原始信息汇总
IndicIRSuite: Multilingual Dataset and Neural Information Models for Indian Languages
数据集链接
模型链接
主要贡献者
- Saiful Haq
- Ashutosh Sharma
- Pushpak Bhattacharyya
引用信息
@article{haq2023indicirsuite, title={IndicIRSuite: Multilingual Dataset and Neural Information Models for Indian Languages}, author={Haq, Saiful and Sharma, Ashutosh and Bhattacharyya, Pushpak}, journal={arXiv preprint arXiv:2312.09508}, year={2023} }
语言代码与语言映射
- asm_Beng: Assamese Language
- ben_Beng: Bengali Language
- guj_Gujr: Gujarati Language
- hin_Deva: Hindi Language
- kan_Knda: Kannada Language
- mal_Mlym: Malyalam Language
- mar_Deva: Marathi Language
- ory_Orya: Oriya Language
- pan_Guru: Punjabi Language
- tam_Taml: Tamil Language
- tel_Telu: Telugu Language
搜集汇总
数据集介绍

构建方式
在信息检索领域,大规模数据集对于训练神经检索模型至关重要,而低资源印度语言长期面临数据匮乏的困境。INDIC-MARCO数据集应运而生,它基于英文MSMARCO数据集,利用int-8量化的NLLB-1.3B-Distilled模型,将查询和段落机器翻译至11种印度语言(涵盖阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语和泰卢固语)。翻译过程中,段落通过Moses工具进行句子拆分,以批次为单位进行高效翻译,而查询则直接处理。最终数据集包含约880万段落、53万查询和3900万训练三元组,为每种语言提供了丰富的神经检索训练资源。
特点
INDIC-MARCO数据集的显著特点在于其规模宏大与语言覆盖广度。它是首个针对11种广泛使用的印度语言的大规模神经IR数据集,为每种语言提供了8.8百万段落、1百万查询和约3900万训练三元组,确保了数据量的充足性。该数据集通过机器翻译生成,虽为合成数据,但在低资源语言上展现出卓越效果,例如阿萨姆语在MRR@10指标上较BM25基线提升125%,这得益于其与孟加拉语的相似性及高质量翻译。此外,数据集支持单语言检索,为跨语言和零样本迁移研究奠定了基础。
使用方法
使用INDIC-MARCO数据集时,研究者可针对每种语言训练独立的单语言神经IR模型,如基于ColBERTv2架构的Indic-ColBERT。训练过程采用前640万三元组,每批次128个样本,迭代5万步,优化成对softmax交叉熵损失。模型使用mBERT作为编码器,并微调自官方检查点。评估可在INDIC-MARCO开发集上进行,也可零样本迁移至Mr.Tydi或MIRACL等基准数据集。例如,Indic-ColBERT在孟加拉语上于Mr.Tydi测试集实现MRR@100提升20%,展示了其在跨数据集泛化中的实用性。
背景与挑战
背景概述
信息检索(IR)领域在深度学习时代经历了范式转变,神经IR模型凭借语义匹配能力显著超越了传统词袋模型(如BM25)。然而,现有大规模IR数据集(如MSMARCO)主要面向英语,非英语语言尤其是印度诸语言的神经IR资源极度匮乏。2023年,印度理工学院孟买分校的Saiful Haq、Ashutosh Sharma与Pushpak Bhattacharyya团队提出了INDIC-MARCO数据集,旨在填补这一空白。该数据集通过机器翻译技术,将MSMARCO的查询与篇章翻译为11种广泛使用的印度语言(涵盖印欧语系与达罗毗荼语系),构建了包含880万篇章、100万查询和3900万训练三元组的大规模多语语料库。INDIC-MARCO是首个针对多种印度语言的神经IR基准数据集,为低资源语言(如阿萨姆语)的检索研究提供了关键支撑,推动了多语信息检索领域的跨语言迁移与模型泛化研究。
当前挑战
INDIC-MARCO面临的核心挑战体现在两方面。领域问题层面,印度语言资源稀疏且形态复杂,神经IR模型在低资源语言(如奥里亚语)上的表现受限于预训练语言模型(如mBERT)的覆盖不足,导致检索精度显著下降(如奥里亚语MRR@10近乎为零)。构建过程中,机器翻译质量成为瓶颈:尽管采用NLLB-1.3B蒸馏模型,但翻译需处理MSMARCO中39亿个训练三元组,耗时长达1584小时(A100 GPU),且部分语言(如阿萨姆语)缺乏高质量平行语料,翻译噪声可能引入语义失真。此外,多语言模型训练需平衡11种语言的参数共享与语言特异性,mBERT对奥里亚语等语言的零支持进一步加剧了跨语言迁移的难度,制约了数据集在统一多语检索框架下的泛用性。
常用场景
经典使用场景
在神经信息检索领域,INDIC-MARCO数据集被广泛用于训练和评估面向印度语言的单语检索模型。其经典使用场景是作为大规模监督训练语料,研究者利用该数据集中的数百万查询-文档三元组,对基于Transformer架构的稠密检索模型进行端到端训练,从而在阿萨姆语、孟加拉语、印地语等11种印度语言上实现语义级别的查询与文档匹配。该数据集通过机器翻译技术将英文MSMARCO语料迁移至印度语言,为低资源语言提供了宝贵的训练资源,使得原本依赖英语的神经检索范式得以在印度次大陆的语言生态中落地生根。
解决学术问题
INDIC-MARCO数据集的核心学术贡献在于破解了印度语言神经信息检索研究中长期存在的训练数据匮乏困境。此前,尽管mMARCO等数据集已覆盖部分语言,但仅包含印地语一种印度语言,且FIRE等传统语料规模有限、领域狭窄,难以支撑深度模型的训练。该数据集通过大规模机器翻译,为11种印度语言构建了包含880万段落、100万查询和3900万训练三元组的统一资源,首次使得在阿萨姆语、奥里亚语等极低资源语言上训练单语神经检索模型成为可能。实验表明,基于该数据集训练的Indic-ColBERT模型在MRR@10指标上平均提升47.47%,显著推动了多语言信息检索理论在印度语言方向的发展。
衍生相关工作
INDIC-MARCO数据集的发布催生了多项具有影响力的后续研究。最直接的衍生工作是Indic-ColBERT模型系列,它基于ColBERTv2架构并在该数据集上训练,为每种语言提供了专用的神经检索模型,在Mr.Tydi和MIRACL基准测试中分别实现了MRR@100提升20%和NDCG@10提升19.29%的显著效果。此外,该数据集为跨语言知识蒸馏研究提供了基础资源,研究者利用其大规模平行语料探索从高资源语言向低资源印度语言迁移检索能力的策略。未来,该数据集有望进一步扩展至跨语言检索和多语言问答任务,成为印度语言自然语言处理领域不可或缺的基准平台。
以上内容由遇见数据集搜集并总结生成



