Urdu MS MARCO Dataset
收藏arXiv2024-12-17 更新2024-12-19 收录
下载链接:
https://microsoft.github.io/msmarco/Datasets.html
下载链接
链接失效反馈官方服务:
资源简介:
Urdu MS MARCO Dataset是由德国萨尔兰大学和德国人工智能研究中心创建的首个大规模乌尔都语信息检索数据集。该数据集通过机器翻译MS MARCO数据集生成,包含3900万条三元组,涵盖查询、相关和不相关段落。数据集的创建过程利用了IndicTrans2模型进行翻译,并进行了预处理以提高数据质量。该数据集主要应用于低资源语言的信息检索研究,旨在提升乌尔都语等低资源语言的信息检索性能,并为未来的多语言信息检索研究提供基础。
The Urdu MS MARCO Dataset is the first large-scale Urdu information retrieval dataset created by Saarland University and the German Research Center for Artificial Intelligence. This dataset is generated via machine translation of the original MS MARCO dataset, containing 39 million triples encompassing queries, relevant and irrelevant passages. The dataset construction utilized the IndicTrans2 model for translation, and preprocessing was conducted to improve data quality. This dataset is primarily applied to low-resource language information retrieval research, aiming to enhance the information retrieval performance of low-resource languages such as Urdu, and provide a foundation for future multilingual information retrieval research.
提供机构:
德国萨尔兰大学德国人工智能研究中心
创建时间:
2024-12-17
搜集汇总
数据集介绍

构建方式
为了解决乌尔都语信息检索领域数据稀缺的问题,研究团队通过机器翻译技术构建了乌尔都语MS MARCO数据集。该数据集基于MS MARCO英文数据集,利用IndicTrans2模型进行翻译,涵盖了880万条段落和50万条查询,每条查询至少对应一条相关段落。翻译过程包括文本分词、批量翻译、GPU加速等步骤,确保了数据集的规模和质量。整个翻译过程在单个V100 GPU上耗时约120小时,最终生成了适合乌尔都语信息检索研究的大规模数据集。
特点
乌尔都语MS MARCO数据集具有显著的特点,首先,它是首个针对乌尔都语的大规模信息检索数据集,填补了该领域的空白。其次,数据集通过机器翻译生成,虽然存在一定的翻译误差,但为低资源语言的信息检索研究提供了宝贵的资源。此外,数据集的构建方法为其他低资源语言的数据集创建提供了可借鉴的范例,具有较高的可扩展性和适应性。
使用方法
乌尔都语MS MARCO数据集可用于多种信息检索任务的训练和评估。研究者可以使用该数据集进行模型训练,特别是针对乌尔都语的检索模型。通过对比BM25和mMARCO模型的性能,可以评估不同模型在乌尔都语数据上的表现。此外,数据集还可用于探索低资源语言信息检索的挑战和解决方案,为未来的研究提供基础。
背景与挑战
背景概述
随着信息检索(IR)领域对包容性的日益重视,低资源语言的需求成为一个显著的挑战。Urdu MS MARCO数据集由Umer Butt、Stalin Veranasi和Günter Neumann等研究人员于2024年创建,旨在解决乌尔都语信息检索的数据稀缺问题。该数据集通过机器翻译将MS MARCO数据集转换为乌尔都语,成为首个大规模乌尔都语IR数据集。乌尔都语作为一种低资源语言,拥有超过7000万的使用者,主要分布在南亚地区。其独特的语言特征,如波斯-阿拉伯文字和复杂的形态学结构,为信息检索系统带来了显著的挑战。该数据集的创建不仅为乌尔都语的信息检索研究提供了基础,还强调了多语言信息检索技术在社会和伦理层面的重要性。
当前挑战
乌尔都语MS MARCO数据集的构建面临多重挑战。首先,乌尔都语作为低资源语言,缺乏大规模、高质量的数据集,这使得模型训练和评估变得困难。其次,通过机器翻译创建数据集引入了翻译错误和上下文丢失的问题,这些错误可能严重影响信息检索的性能。此外,乌尔都语的复杂形态学和独特的书写系统(如右到左的书写方向)增加了分词、脚本处理和形态分析的难度。尽管如此,通过使用IndicTrans2模型进行翻译,并在此基础上进行模型微调,研究团队成功地提高了信息检索的准确性和召回率,为未来的低资源语言信息检索研究奠定了基础。
常用场景
经典使用场景
Urdu MS MARCO Dataset的经典使用场景主要集中在低资源语言的信息检索(IR)任务中。该数据集通过机器翻译将MS MARCO数据集转换为乌尔都语,为乌尔都语的信息检索研究提供了首个大规模基准。研究人员可以利用该数据集进行零样本学习,评估和优化信息检索模型,特别是在处理乌尔都语这类低资源语言时,模型能够更好地理解和处理其独特的语言特征,如复杂的形态学和右到左的书写方向。
解决学术问题
Urdu MS MARCO Dataset解决了低资源语言信息检索中的关键学术问题,特别是数据稀缺性和语言特征复杂性。通过提供大规模的乌尔都语数据集,该数据集为研究人员提供了一个基准,使得他们能够开发和评估针对乌尔都语的信息检索模型。这不仅推动了多语言信息检索的研究,还强调了信息检索技术在低资源语言中的伦理和社会重要性,为未来的研究奠定了基础。
衍生相关工作
Urdu MS MARCO Dataset的发布激发了一系列相关研究工作,特别是在多语言信息检索和低资源语言处理领域。例如,研究人员可以基于该数据集开发新的机器翻译模型,以提高翻译质量和信息检索性能。此外,该数据集还为其他南亚语言的信息检索研究提供了模板,促进了这些语言在信息检索技术中的代表性和应用。通过这些衍生工作,该数据集不仅推动了乌尔都语的研究,还为全球低资源语言的信息检索技术发展做出了贡献。
以上内容由遇见数据集搜集并总结生成



