Shitao/MLDR
收藏Hugging Face2024-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Shitao/MLDR
下载链接
链接失效反馈官方服务:
资源简介:
MLDR是一个多语言长文档检索数据集,基于Wikipedia、Wudao和mC4构建,涵盖13种语言。数据集通过从这些资源中抽取长篇文章并随机选择段落,然后使用GPT-3.5生成问题来构建。每个生成的问题和抽取的文章构成一个新的文本对。数据集包含训练、开发和测试集,以及一个语料库。每种语言的文档数量和平均长度在提供的表格中有详细说明。
MLDR是一个多语言长文档检索数据集,基于Wikipedia、Wudao和mC4构建,涵盖13种语言。数据集通过从这些资源中抽取长篇文章并随机选择段落,然后使用GPT-3.5生成问题来构建。每个生成的问题和抽取的文章构成一个新的文本对。数据集包含训练、开发和测试集,以及一个语料库。每种语言的文档数量和平均长度在提供的表格中有详细说明。
提供机构:
Shitao
原始信息汇总
数据集概述
数据集名称
MLDR(Multilingual Long-Document Retrieval)
数据集描述
MLDR是一个多语言长文档检索数据集,基于Wikipedia、Wudao和mC4构建,涵盖13种语言。数据集通过从这些源数据集中随机抽取长篇文章的段落,并使用GPT-3.5生成基于这些段落的具体问题。生成的每个问题与其对应的段落文章构成数据集中的一个文本对。
语言支持
数据集支持以下13种语言:
- Arabic (ar)
- German (de)
- English (en)
- Spanish (es)
- French (fr)
- Hindi (hi)
- Italian (it)
- Japanese (ja)
- Korean (ko)
- Portuguese (pt)
- Russian (ru)
- Thai (th)
- Chinese (zh)
数据集结构
数据集分为train, dev, 和 test三个部分,每个部分包含以下字段:
query_id: 查询IDquery: 生成的查询问题positive_passages: 包含正确答案的段落negative_passages: 不包含正确答案的段落(仅在训练集中有)
数据集统计
| Language Code | Language | Source | #train | #dev | #test | #corpus | Avg. Length of Docs |
|---|---|---|---|---|---|---|---|
| ar | Arabic | Wikipedia | 1,817 | 200 | 200 | 7,607 | 9,428 |
| de | German | Wikipedia, mC4 | 1,847 | 200 | 200 | 10,000 | 9,039 |
| en | English | Wikipedia | 10,000 | 200 | 800 | 200,000 | 3,308 |
| es | Spanish | Wikipedia, mC4 | 2,254 | 200 | 200 | 9,551 | 8,771 |
| fr | French | Wikipedia | 1,608 | 200 | 200 | 10,000 | 9,659 |
| hi | Hindi | Wikipedia | 1,618 | 200 | 200 | 3,806 | 5,555 |
| it | Italian | Wikipedia | 2,151 | 200 | 200 | 10,000 | 9,195 |
| ja | Japanese | Wikipedia | 2,262 | 200 | 200 | 10,000 | 9,297 |
| ko | Korean | Wikipedia | 2,198 | 200 | 200 | 6,176 | 7,832 |
| pt | Portuguese | Wikipedia | 1,845 | 200 | 200 | 6,569 | 7,922 |
| ru | Russian | Wikipedia | 1,864 | 200 | 200 | 10,000 | 9,723 |
| th | Thai | mC4 | 1,970 | 200 | 200 | 10,000 | 8,089 |
| zh | Chinese | Wikipedia, Wudao | 10,000 | 200 | 800 | 200,000 | 4,249 |
| Total | - | - | 41,434 | 2,600 | 3,800 | 493,709 | 4,737 |
许可证
MIT License
搜集汇总
数据集介绍

构建方式
MLDR数据集是一个多语言长文档检索数据集,基于Wikipedia、Wudao和mC4构建,涵盖13种类型多样的语言。具体构建过程中,从这些数据集中抽取长篇文章,并随机选择段落。随后,利用GPT-3.5生成基于这些段落的问题。生成的问题与抽取的文章构成新的文本对,形成数据集的核心内容。GPT-3.5的提示词为生成一个围绕文本核心内容的具体且有价值的问题,避免使用代词。
使用方法
MLDR数据集的使用方法较为灵活,用户可以通过Hugging Face的`load_dataset`函数加载特定语言的训练集、开发集、测试集或语料库。加载时,用户需指定语言代码和所需的数据集分割。数据集的结构清晰,每个样本包含查询ID、查询文本、正例段落和负例段落,便于用户进行模型训练和评估。此外,数据集已集成到MTEB评估框架中,用户可通过该框架进行密集检索、稀疏检索和ColBERT检索的评估。
背景与挑战
背景概述
MLDR(Multilingual Long-Document Retrieval)数据集由Shitao等人于2024年构建,旨在解决多语言长文档检索的核心问题。该数据集基于Wikipedia、Wudao和mC4等多样化的语料库,涵盖了13种类型学上差异显著的语言。通过从这些语料库中抽取长篇文章并随机选择段落,研究人员利用GPT-3.5生成与段落核心内容相关的问题,从而构建了文本对。MLDR的创建不仅推动了多语言信息检索领域的发展,还为跨语言文档理解与检索提供了重要的基准数据。
当前挑战
MLDR数据集在构建过程中面临多重挑战。首先,多语言长文档的检索任务本身具有复杂性,不同语言之间的语法结构、语义表达和文化背景差异显著,这对模型的跨语言理解能力提出了极高要求。其次,数据集的构建依赖于GPT-3.5生成问题,如何确保生成的问题与段落内容高度相关且避免歧义,是一个技术难点。此外,数据集的规模庞大且语言种类繁多,如何高效地处理、存储和分发这些数据,也是实际应用中的一大挑战。
常用场景
经典使用场景
MLDR数据集在多语言长文档检索领域具有重要应用,尤其在跨语言信息检索和文档理解任务中表现突出。通过从Wikipedia、Wudao和mC4等多样化的语料库中提取长文档,并结合GPT-3.5生成的问题,MLDR为研究者提供了一个丰富的多语言长文档检索基准。其经典使用场景包括跨语言问答系统、多语言搜索引擎优化以及长文档语义匹配等任务。
解决学术问题
MLDR数据集解决了多语言长文档检索中的核心挑战,如跨语言语义对齐、长文档信息压缩以及多语言检索模型的性能评估。通过提供13种语言的多样化语料和高质量的问题-文档对,MLDR为研究者提供了一个标准化的评估框架,推动了多语言检索模型的发展。其意义在于填补了多语言长文档检索领域的空白,并为跨语言信息处理提供了新的研究方向。
实际应用
在实际应用中,MLDR数据集被广泛用于构建多语言搜索引擎、跨语言问答系统以及智能文档管理系统。例如,企业可以利用MLDR训练的多语言检索模型,优化其全球用户的搜索体验;教育机构则可以通过该数据集开发多语言学习工具,帮助学生更高效地获取跨语言知识资源。其实际应用场景涵盖了从商业到教育的多个领域。
数据集最近研究
最新研究方向
在跨语言信息检索领域,MLDR数据集以其多语言长文档检索的特性,成为研究热点。该数据集覆盖13种语言,结合了Wikipedia、Wudao和mC4的丰富语料,通过GPT-3.5生成问题与文档对,为多语言检索模型的训练与评估提供了高质量的数据支持。当前研究聚焦于如何利用MLDR提升多语言嵌入模型的性能,特别是在密集检索、稀疏检索和ColBERT检索等技术的优化上。此外,MLDR已被整合到MTEB评估框架中,进一步推动了多语言检索任务的标准化与可比性。这一进展不仅加速了多语言信息检索技术的发展,也为全球范围内的语言障碍消除提供了新的技术路径。
以上内容由遇见数据集搜集并总结生成



