Shitao/MLDR

Name: Shitao/MLDR
Creator: Shitao
Published: 2024-02-06 08:44:31
License: 暂无描述

Hugging Face2024-02-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Shitao/MLDR

下载链接

链接失效反馈

官方服务：

资源简介：

MLDR是一个多语言长文档检索数据集，基于Wikipedia、Wudao和mC4构建，涵盖13种语言。数据集通过从这些资源中抽取长篇文章并随机选择段落，然后使用GPT-3.5生成问题来构建。每个生成的问题和抽取的文章构成一个新的文本对。数据集包含训练、开发和测试集，以及一个语料库。每种语言的文档数量和平均长度在提供的表格中有详细说明。

提供机构：

Shitao

原始信息汇总

数据集概述

数据集名称

MLDR（Multilingual Long-Document Retrieval）

数据集描述

MLDR是一个多语言长文档检索数据集，基于Wikipedia、Wudao和mC4构建，涵盖13种语言。数据集通过从这些源数据集中随机抽取长篇文章的段落，并使用GPT-3.5生成基于这些段落的具体问题。生成的每个问题与其对应的段落文章构成数据集中的一个文本对。

语言支持

数据集支持以下13种语言：

Arabic (ar)
German (de)
English (en)
Spanish (es)
French (fr)
Hindi (hi)
Italian (it)
Japanese (ja)
Korean (ko)
Portuguese (pt)
Russian (ru)
Thai (th)
Chinese (zh)

数据集结构

数据集分为train, dev, 和 test三个部分，每个部分包含以下字段：

query_id: 查询ID
query: 生成的查询问题
positive_passages: 包含正确答案的段落
negative_passages: 不包含正确答案的段落（仅在训练集中有）

数据集统计

Language Code	Language	Source	#train	#dev	#test	#corpus	Avg. Length of Docs
ar	Arabic	Wikipedia	1,817	200	200	7,607	9,428
de	German	Wikipedia, mC4	1,847	200	200	10,000	9,039
en	English	Wikipedia	10,000	200	800	200,000	3,308
es	Spanish	Wikipedia, mC4	2,254	200	200	9,551	8,771
fr	French	Wikipedia	1,608	200	200	10,000	9,659
hi	Hindi	Wikipedia	1,618	200	200	3,806	5,555
it	Italian	Wikipedia	2,151	200	200	10,000	9,195
ja	Japanese	Wikipedia	2,262	200	200	10,000	9,297
ko	Korean	Wikipedia	2,198	200	200	6,176	7,832
pt	Portuguese	Wikipedia	1,845	200	200	6,569	7,922
ru	Russian	Wikipedia	1,864	200	200	10,000	9,723
th	Thai	mC4	1,970	200	200	10,000	8,089
zh	Chinese	Wikipedia, Wudao	10,000	200	800	200,000	4,249
Total	-	-	41,434	2,600	3,800	493,709	4,737

许可证

MIT License

搜集汇总

数据集介绍

构建方式

MLDR数据集是一个多语言长文档检索数据集，基于Wikipedia、Wudao和mC4构建，涵盖13种类型多样的语言。具体构建过程中，从这些数据集中抽取长篇文章，并随机选择段落。随后，利用GPT-3.5生成基于这些段落的问题。生成的问题与抽取的文章构成新的文本对，形成数据集的核心内容。GPT-3.5的提示词为生成一个围绕文本核心内容的具体且有价值的问题，避免使用代词。

使用方法

MLDR数据集的使用方法较为灵活，用户可以通过Hugging Face的`load_dataset`函数加载特定语言的训练集、开发集、测试集或语料库。加载时，用户需指定语言代码和所需的数据集分割。数据集的结构清晰，每个样本包含查询ID、查询文本、正例段落和负例段落，便于用户进行模型训练和评估。此外，数据集已集成到MTEB评估框架中，用户可通过该框架进行密集检索、稀疏检索和ColBERT检索的评估。

背景与挑战

背景概述

MLDR（Multilingual Long-Document Retrieval）数据集由Shitao等人于2024年构建，旨在解决多语言长文档检索的核心问题。该数据集基于Wikipedia、Wudao和mC4等多样化的语料库，涵盖了13种类型学上差异显著的语言。通过从这些语料库中抽取长篇文章并随机选择段落，研究人员利用GPT-3.5生成与段落核心内容相关的问题，从而构建了文本对。MLDR的创建不仅推动了多语言信息检索领域的发展，还为跨语言文档理解与检索提供了重要的基准数据。

当前挑战

MLDR数据集在构建过程中面临多重挑战。首先，多语言长文档的检索任务本身具有复杂性，不同语言之间的语法结构、语义表达和文化背景差异显著，这对模型的跨语言理解能力提出了极高要求。其次，数据集的构建依赖于GPT-3.5生成问题，如何确保生成的问题与段落内容高度相关且避免歧义，是一个技术难点。此外，数据集的规模庞大且语言种类繁多，如何高效地处理、存储和分发这些数据，也是实际应用中的一大挑战。

常用场景

经典使用场景

MLDR数据集在多语言长文档检索领域具有重要应用，尤其在跨语言信息检索和文档理解任务中表现突出。通过从Wikipedia、Wudao和mC4等多样化的语料库中提取长文档，并结合GPT-3.5生成的问题，MLDR为研究者提供了一个丰富的多语言长文档检索基准。其经典使用场景包括跨语言问答系统、多语言搜索引擎优化以及长文档语义匹配等任务。

解决学术问题

MLDR数据集解决了多语言长文档检索中的核心挑战，如跨语言语义对齐、长文档信息压缩以及多语言检索模型的性能评估。通过提供13种语言的多样化语料和高质量的问题-文档对，MLDR为研究者提供了一个标准化的评估框架，推动了多语言检索模型的发展。其意义在于填补了多语言长文档检索领域的空白，并为跨语言信息处理提供了新的研究方向。

实际应用

在实际应用中，MLDR数据集被广泛用于构建多语言搜索引擎、跨语言问答系统以及智能文档管理系统。例如，企业可以利用MLDR训练的多语言检索模型，优化其全球用户的搜索体验；教育机构则可以通过该数据集开发多语言学习工具，帮助学生更高效地获取跨语言知识资源。其实际应用场景涵盖了从商业到教育的多个领域。

数据集最近研究