Shitao/MLDR|多语言数据集|文本检索数据集

hugging_face2024-02-06 更新2024-03-04 收录

多语言

文本检索

下载链接：

https://hf-mirror.com/datasets/Shitao/MLDR

下载链接

链接失效反馈

资源简介：

MLDR是一个多语言长文档检索数据集，基于Wikipedia、Wudao和mC4构建，涵盖13种语言。数据集通过从这些资源中抽取长篇文章并随机选择段落，然后使用GPT-3.5生成问题来构建。每个生成的问题和抽取的文章构成一个新的文本对。数据集包含训练、开发和测试集，以及一个语料库。每种语言的文档数量和平均长度在提供的表格中有详细说明。

提供机构：

Shitao

原始信息汇总

数据集概述

数据集名称

MLDR（Multilingual Long-Document Retrieval）

数据集描述

MLDR是一个多语言长文档检索数据集，基于Wikipedia、Wudao和mC4构建，涵盖13种语言。数据集通过从这些源数据集中随机抽取长篇文章的段落，并使用GPT-3.5生成基于这些段落的具体问题。生成的每个问题与其对应的段落文章构成数据集中的一个文本对。

语言支持

数据集支持以下13种语言：

Arabic (ar)
German (de)
English (en)
Spanish (es)
French (fr)
Hindi (hi)
Italian (it)
Japanese (ja)
Korean (ko)
Portuguese (pt)
Russian (ru)
Thai (th)
Chinese (zh)

数据集结构

数据集分为train, dev, 和 test三个部分，每个部分包含以下字段：

query_id: 查询ID
query: 生成的查询问题
positive_passages: 包含正确答案的段落
negative_passages: 不包含正确答案的段落（仅在训练集中有）

数据集统计

Language Code	Language	Source	#train	#dev	#test	#corpus	Avg. Length of Docs
ar	Arabic	Wikipedia	1,817	200	200	7,607	9,428
de	German	Wikipedia, mC4	1,847	200	200	10,000	9,039
en	English	Wikipedia	10,000	200	800	200,000	3,308
es	Spanish	Wikipedia, mC4	2,254	200	200	9,551	8,771
fr	French	Wikipedia	1,608	200	200	10,000	9,659
hi	Hindi	Wikipedia	1,618	200	200	3,806	5,555
it	Italian	Wikipedia	2,151	200	200	10,000	9,195
ja	Japanese	Wikipedia	2,262	200	200	10,000	9,297
ko	Korean	Wikipedia	2,198	200	200	6,176	7,832
pt	Portuguese	Wikipedia	1,845	200	200	6,569	7,922
ru	Russian	Wikipedia	1,864	200	200	10,000	9,723
th	Thai	mC4	1,970	200	200	10,000	8,089
zh	Chinese	Wikipedia, Wudao	10,000	200	800	200,000	4,249
Total	-	-	41,434	2,600	3,800	493,709	4,737

许可证

MIT License

AI搜集汇总

数据集介绍

构建方式

MLDR数据集是一个多语言长文档检索数据集，基于Wikipedia、Wudao和mC4构建，涵盖13种类型多样的语言。具体构建过程中，从这些数据集中抽取长篇文章，并随机选择段落。随后，利用GPT-3.5生成基于这些段落的问题。生成的问题与抽取的文章构成新的文本对，形成数据集的核心内容。GPT-3.5的提示词为生成一个围绕文本核心内容的具体且有价值的问题，避免使用代词。

使用方法

MLDR数据集的使用方法较为灵活，用户可以通过Hugging Face的`load_dataset`函数加载特定语言的训练集、开发集、测试集或语料库。加载时，用户需指定语言代码和所需的数据集分割。数据集的结构清晰，每个样本包含查询ID、查询文本、正例段落和负例段落，便于用户进行模型训练和评估。此外，数据集已集成到MTEB评估框架中，用户可通过该框架进行密集检索、稀疏检索和ColBERT检索的评估。

背景与挑战

背景概述

MLDR（Multilingual Long-Document Retrieval）数据集由Shitao等人于2024年构建，旨在解决多语言长文档检索的核心问题。该数据集基于Wikipedia、Wudao和mC4等多样化的语料库，涵盖了13种类型学上差异显著的语言。通过从这些语料库中抽取长篇文章并随机选择段落，研究人员利用GPT-3.5生成与段落核心内容相关的问题，从而构建了文本对。MLDR的创建不仅推动了多语言信息检索领域的发展，还为跨语言文档理解与检索提供了重要的基准数据。

当前挑战

MLDR数据集在构建过程中面临多重挑战。首先，多语言长文档的检索任务本身具有复杂性，不同语言之间的语法结构、语义表达和文化背景差异显著，这对模型的跨语言理解能力提出了极高要求。其次，数据集的构建依赖于GPT-3.5生成问题，如何确保生成的问题与段落内容高度相关且避免歧义，是一个技术难点。此外，数据集的规模庞大且语言种类繁多，如何高效地处理、存储和分发这些数据，也是实际应用中的一大挑战。

常用场景

经典使用场景

MLDR数据集在多语言长文档检索领域具有重要应用，尤其在跨语言信息检索和文档理解任务中表现突出。通过从Wikipedia、Wudao和mC4等多样化的语料库中提取长文档，并结合GPT-3.5生成的问题，MLDR为研究者提供了一个丰富的多语言长文档检索基准。其经典使用场景包括跨语言问答系统、多语言搜索引擎优化以及长文档语义匹配等任务。

解决学术问题

MLDR数据集解决了多语言长文档检索中的核心挑战，如跨语言语义对齐、长文档信息压缩以及多语言检索模型的性能评估。通过提供13种语言的多样化语料和高质量的问题-文档对，MLDR为研究者提供了一个标准化的评估框架，推动了多语言检索模型的发展。其意义在于填补了多语言长文档检索领域的空白，并为跨语言信息处理提供了新的研究方向。

实际应用

在实际应用中，MLDR数据集被广泛用于构建多语言搜索引擎、跨语言问答系统以及智能文档管理系统。例如，企业可以利用MLDR训练的多语言检索模型，优化其全球用户的搜索体验；教育机构则可以通过该数据集开发多语言学习工具，帮助学生更高效地获取跨语言知识资源。其实际应用场景涵盖了从商业到教育的多个领域。

数据集最近研究

最新研究方向

在跨语言信息检索领域，MLDR数据集以其多语言长文档检索的特性，成为研究热点。该数据集覆盖13种语言，结合了Wikipedia、Wudao和mC4的丰富语料，通过GPT-3.5生成问题与文档对，为多语言检索模型的训练与评估提供了高质量的数据支持。当前研究聚焦于如何利用MLDR提升多语言嵌入模型的性能，特别是在密集检索、稀疏检索和ColBERT检索等技术的优化上。此外，MLDR已被整合到MTEB评估框架中，进一步推动了多语言检索任务的标准化与可比性。这一进展不仅加速了多语言信息检索技术的发展，也为全球范围内的语言障碍消除提供了新的技术路径。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息，数据通过爬虫技术获取并整理成CSV格式，用于音乐数据挖掘和推荐系统构建。

github 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

MECCANO

MECCANO数据集是首个专注于工业类似环境中第一人称视角下人类-物体交互的研究数据集。该数据集由20名参与者在模拟工业场景中构建摩托车玩具模型的视频组成，包含299,376帧视频数据。数据集不仅标注了时间上的动作片段，还标注了空间上的活跃物体边界框，涵盖了12种动词、20种名词和61种独特动作的分类。MECCANO数据集旨在推动工业环境中第一人称视角下人类动作识别、活跃物体检测、活跃物体识别及第一人称视角下人类-物体交互检测等任务的研究。

arXiv 收录

UCI Wine

UCI Wine数据集包含了178个样本，每个样本有13个特征，用于分类任务。这些特征包括葡萄酒的化学成分，如酒精含量、苹果酸、灰分等。数据集的目标是将葡萄酒分类为三个不同的品种。

archive.ics.uci.edu 收录