five

Shitao/MLDR

收藏
Hugging Face2024-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Shitao/MLDR
下载链接
链接失效反馈
官方服务:
资源简介:
MLDR是一个多语言长文档检索数据集,基于Wikipedia、Wudao和mC4构建,涵盖13种语言。数据集通过从这些资源中抽取长篇文章并随机选择段落,然后使用GPT-3.5生成问题来构建。每个生成的问题和抽取的文章构成一个新的文本对。数据集包含训练、开发和测试集,以及一个语料库。每种语言的文档数量和平均长度在提供的表格中有详细说明。

MLDR是一个多语言长文档检索数据集,基于Wikipedia、Wudao和mC4构建,涵盖13种语言。数据集通过从这些资源中抽取长篇文章并随机选择段落,然后使用GPT-3.5生成问题来构建。每个生成的问题和抽取的文章构成一个新的文本对。数据集包含训练、开发和测试集,以及一个语料库。每种语言的文档数量和平均长度在提供的表格中有详细说明。
提供机构:
Shitao
原始信息汇总

数据集概述

数据集名称

MLDR(Multilingual Long-Document Retrieval)

数据集描述

MLDR是一个多语言长文档检索数据集,基于Wikipedia、Wudao和mC4构建,涵盖13种语言。数据集通过从这些源数据集中随机抽取长篇文章的段落,并使用GPT-3.5生成基于这些段落的具体问题。生成的每个问题与其对应的段落文章构成数据集中的一个文本对。

语言支持

数据集支持以下13种语言:

  • Arabic (ar)
  • German (de)
  • English (en)
  • Spanish (es)
  • French (fr)
  • Hindi (hi)
  • Italian (it)
  • Japanese (ja)
  • Korean (ko)
  • Portuguese (pt)
  • Russian (ru)
  • Thai (th)
  • Chinese (zh)

数据集结构

数据集分为train, dev, 和 test三个部分,每个部分包含以下字段:

  • query_id: 查询ID
  • query: 生成的查询问题
  • positive_passages: 包含正确答案的段落
  • negative_passages: 不包含正确答案的段落(仅在训练集中有)

数据集统计

Language Code Language Source #train #dev #test #corpus Avg. Length of Docs
ar Arabic Wikipedia 1,817 200 200 7,607 9,428
de German Wikipedia, mC4 1,847 200 200 10,000 9,039
en English Wikipedia 10,000 200 800 200,000 3,308
es Spanish Wikipedia, mC4 2,254 200 200 9,551 8,771
fr French Wikipedia 1,608 200 200 10,000 9,659
hi Hindi Wikipedia 1,618 200 200 3,806 5,555
it Italian Wikipedia 2,151 200 200 10,000 9,195
ja Japanese Wikipedia 2,262 200 200 10,000 9,297
ko Korean Wikipedia 2,198 200 200 6,176 7,832
pt Portuguese Wikipedia 1,845 200 200 6,569 7,922
ru Russian Wikipedia 1,864 200 200 10,000 9,723
th Thai mC4 1,970 200 200 10,000 8,089
zh Chinese Wikipedia, Wudao 10,000 200 800 200,000 4,249
Total - - 41,434 2,600 3,800 493,709 4,737

许可证

MIT License

搜集汇总
数据集介绍
main_image_url
构建方式
MLDR数据集是一个多语言长文档检索数据集,基于Wikipedia、Wudao和mC4构建,涵盖13种类型多样的语言。具体构建过程中,从这些数据集中抽取长篇文章,并随机选择段落。随后,利用GPT-3.5生成基于这些段落的问题。生成的问题与抽取的文章构成新的文本对,形成数据集的核心内容。GPT-3.5的提示词为生成一个围绕文本核心内容的具体且有价值的问题,避免使用代词。
使用方法
MLDR数据集的使用方法较为灵活,用户可以通过Hugging Face的`load_dataset`函数加载特定语言的训练集、开发集、测试集或语料库。加载时,用户需指定语言代码和所需的数据集分割。数据集的结构清晰,每个样本包含查询ID、查询文本、正例段落和负例段落,便于用户进行模型训练和评估。此外,数据集已集成到MTEB评估框架中,用户可通过该框架进行密集检索、稀疏检索和ColBERT检索的评估。
背景与挑战
背景概述
MLDR(Multilingual Long-Document Retrieval)数据集由Shitao等人于2024年构建,旨在解决多语言长文档检索的核心问题。该数据集基于Wikipedia、Wudao和mC4等多样化的语料库,涵盖了13种类型学上差异显著的语言。通过从这些语料库中抽取长篇文章并随机选择段落,研究人员利用GPT-3.5生成与段落核心内容相关的问题,从而构建了文本对。MLDR的创建不仅推动了多语言信息检索领域的发展,还为跨语言文档理解与检索提供了重要的基准数据。
当前挑战
MLDR数据集在构建过程中面临多重挑战。首先,多语言长文档的检索任务本身具有复杂性,不同语言之间的语法结构、语义表达和文化背景差异显著,这对模型的跨语言理解能力提出了极高要求。其次,数据集的构建依赖于GPT-3.5生成问题,如何确保生成的问题与段落内容高度相关且避免歧义,是一个技术难点。此外,数据集的规模庞大且语言种类繁多,如何高效地处理、存储和分发这些数据,也是实际应用中的一大挑战。
常用场景
经典使用场景
MLDR数据集在多语言长文档检索领域具有重要应用,尤其在跨语言信息检索和文档理解任务中表现突出。通过从Wikipedia、Wudao和mC4等多样化的语料库中提取长文档,并结合GPT-3.5生成的问题,MLDR为研究者提供了一个丰富的多语言长文档检索基准。其经典使用场景包括跨语言问答系统、多语言搜索引擎优化以及长文档语义匹配等任务。
解决学术问题
MLDR数据集解决了多语言长文档检索中的核心挑战,如跨语言语义对齐、长文档信息压缩以及多语言检索模型的性能评估。通过提供13种语言的多样化语料和高质量的问题-文档对,MLDR为研究者提供了一个标准化的评估框架,推动了多语言检索模型的发展。其意义在于填补了多语言长文档检索领域的空白,并为跨语言信息处理提供了新的研究方向。
实际应用
在实际应用中,MLDR数据集被广泛用于构建多语言搜索引擎、跨语言问答系统以及智能文档管理系统。例如,企业可以利用MLDR训练的多语言检索模型,优化其全球用户的搜索体验;教育机构则可以通过该数据集开发多语言学习工具,帮助学生更高效地获取跨语言知识资源。其实际应用场景涵盖了从商业到教育的多个领域。
数据集最近研究
最新研究方向
在跨语言信息检索领域,MLDR数据集以其多语言长文档检索的特性,成为研究热点。该数据集覆盖13种语言,结合了Wikipedia、Wudao和mC4的丰富语料,通过GPT-3.5生成问题与文档对,为多语言检索模型的训练与评估提供了高质量的数据支持。当前研究聚焦于如何利用MLDR提升多语言嵌入模型的性能,特别是在密集检索、稀疏检索和ColBERT检索等技术的优化上。此外,MLDR已被整合到MTEB评估框架中,进一步推动了多语言检索任务的标准化与可比性。这一进展不仅加速了多语言信息检索技术的发展,也为全球范围内的语言障碍消除提供了新的技术路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作