miracl/miracl-corpus

Name: miracl/miracl-corpus
Creator: miracl
Published: 2023-01-05 17:28:26
License: 暂无描述

Hugging Face2023-01-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/miracl/miracl-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

MIRACL 🌍🙌🌏（跨语言连续体的多语言信息检索）是一个多语言检索数据集，专注于18种不同语言的检索，这些语言共同涵盖了全球超过30亿的母语使用者。该数据集包含16种“已知语言”的收集数据，剩余的2种“惊喜语言”将在稍后发布。每种语言的语料库均基于维基百科的转储，仅保留纯文本并丢弃图像、表格等内容。每篇文章根据自然话语单元（如维基标记中的` `）分割成多个段落，每个段落作为一个检索单元，并保留了每个段落的维基百科文章标题。

MIRACL 🌍🙌🌏 (Multilingual Information Retrieval across Language Continuums) is a multilingual retrieval dataset that focuses on retrieval tasks across 18 distinct languages, which collectively cover over 3 billion native speakers worldwide. The dataset contains curated data from 16 "known languages", while the remaining 2 "surprise languages" will be released at a later stage. The corpus for each language is built upon Wikipedia dumps, where only plain text is retained and content such as images and tables are discarded. Each article is segmented into multiple paragraphs based on natural discourse units (e.g., `<p>` tags in Wikipedia markup), with each paragraph acting as a retrieval unit, and the corresponding Wikipedia article title is preserved for each paragraph.

提供机构：

miracl

原始信息汇总

数据集卡片 for MIRACL Corpus

数据集描述

MIRACL（Multilingual Information Retrieval Across a Continuum of Languages）是一个多语言检索数据集，专注于18种不同语言的搜索，这些语言共同覆盖了全球超过30亿母语使用者。

该数据集包含16种“已知语言”的收集数据。其余2种“惊喜语言”将在稍后发布。

每个语言的语料库是从维基百科转储中准备的，我们只保留纯文本并丢弃图像、表格等。每个文章使用WikiExtractor根据自然论述单元（例如，`

`在维基标记中）分割成多个段落。每个段落构成一个“文档”或检索单元。我们保留每个段落的维基百科文章标题。

数据集结构

每个检索单元包含三个字段：docid、title和text。以下是一个来自英语语料库的示例：

json { "docid": "39#0", "title": "Albedo", "text": "Albedo (meaning whiteness) is the measure of the diffuse reflection of solar radiation out of the total solar radiation received by an astronomical body (e.g. a planet like Earth). It is dimensionless and measured on a scale from 0 (corresponding to a black body that absorbs all incident radiation) to 1 (corresponding to a body that reflects all incident radiation)." }

docid的格式为X#Y，其中所有具有相同X的段落来自同一篇维基百科文章，而Y表示该文章中的段落，按顺序编号。text字段包含段落的文本，title字段包含段落来源的文章名称。

可以使用以下代码加载集合：

python lang=ar # 或任何16种语言之一 miracl_corpus = datasets.load_dataset(miracl/miracl-corpus, lang)[train] for doc in miracl_corpus: docid = doc[docid] title = doc[title] text = doc[text]

数据集统计和链接

下表包含每个语言集合中的段落数量和维基百科文章数量，以及数据集和原始维基百科转储的链接。

语言	段落数量	文章数量	数据集链接	原始维基转储
阿拉伯语 (ar)	2,061,414	656,982	🤗	🌏
孟加拉语 (bn)	297,265	63,762	🤗	🌏
英语 (en)	32,893,221	5,758,285	🤗	🌏
西班牙语 (es)	10,373,953	1,669,181	🤗	🌏
波斯语 (fa)	2,207,172	857,827	🤗	🌏
芬兰语 (fi)	1,883,509	447,815	🤗	🌏
法语 (fr)	14,636,953	2,325,608	🤗	🌏
印地语 (hi)	506,264	148,107	🤗	🌏
印度尼西亚语 (id)	1,446,315	446,330	🤗	🌏
日语 (ja)	6,953,614	1,133,444	🤗	🌏
韩语 (ko)	1,486,752	437,373	🤗	🌏
俄语 (ru)	9,543,918	1,476,045	🤗	🌏
斯瓦希里语 (sw)	131,924	47,793	🤗	🌏
泰卢固语 (te)	518,079	66,353	🤗	🌏
泰语 (th)	542,166	128,179	🤗	🌏
中文 (zh)	4,934,368	1,246,389	🤗	🌏

搜集汇总

数据集介绍

构建方式

MIRACL-corpus数据集的构建基于维基百科的多语言文本资源，涵盖了18种语言，其中16种语言的数据已公开。数据集的构建过程包括从维基百科的原始数据中提取纯文本内容，去除图像、表格等非文本元素，并通过WikiExtractor工具将文章分割为多个段落，每个段落作为一个检索单元。每个检索单元包含三个字段：文档ID（docid）、标题（title）和文本内容（text）。文档ID采用'X#Y'格式，其中X表示同一篇文章的标识，Y表示该文章内的段落编号。

特点

MIRACL-corpus数据集的显著特点在于其多语言性和大规模性。该数据集涵盖了18种语言，覆盖了全球超过30亿母语使用者，为多语言信息检索提供了丰富的资源。每个语言的数据集均包含大量的段落和文章，且每个段落都保留了原始文章的标题，便于进行上下文关联分析。此外，数据集的结构化设计使得每个检索单元都具有明确的标识和内容，便于在信息检索任务中进行高效处理。

使用方法

MIRACL-corpus数据集可以通过HuggingFace的datasets库进行加载和使用。用户可以根据需要选择特定的语言数据集，并通过简单的代码加载和遍历数据。每个检索单元的字段包括docid、title和text，用户可以根据这些字段进行文本分析、检索模型训练等任务。数据集的加载示例代码展示了如何加载特定语言的数据，并遍历其中的文档信息，为研究者和开发者提供了便捷的使用接口。

背景与挑战

背景概述

MIRACL（Multilingual Information Retrieval Across a Continuum of Languages）数据集是由专家生成的多语言信息检索数据集，专注于跨越18种不同语言的搜索任务。该数据集涵盖了全球超过30亿母语使用者的语言，旨在推动多语言信息检索技术的发展。数据集的构建基于维基百科的文本数据，通过WikiExtractor工具将文章分割为多个段落，每个段落作为一个检索单元。MIRACL数据集的创建时间为2022年，主要研究人员和机构通过其论文（https://arxiv.org/abs/2210.09984）展示了该数据集的核心研究问题，即如何在多语言环境下实现高效的信息检索。该数据集对多语言信息检索领域的研究具有重要影响，为跨语言检索模型的开发和评估提供了丰富的资源。

当前挑战

MIRACL数据集在构建过程中面临多项挑战。首先，多语言数据的处理和标准化是一个复杂的问题，尤其是不同语言之间的语法结构、词汇表达和文化背景的差异。其次，从维基百科中提取和分割文本段落的过程需要精确的算法支持，以确保每个段落的语义完整性和检索单元的有效性。此外，数据集的规模和多样性也带来了存储和计算资源的挑战，尤其是在处理包含数百万段落的大型语料库时。最后，多语言信息检索模型的评估和比较也是一个重要的挑战，需要设计合适的评估指标和基准测试，以确保模型的跨语言检索性能。

常用场景

经典使用场景

MIRACL-corpus数据集的经典使用场景主要集中在多语言信息检索领域。该数据集通过提供18种语言的文本数据，支持跨语言检索任务，使得研究者和开发者能够在不同语言环境下进行高效的信息检索。其结构化的文档包含`docid`、`title`和`text`字段，便于直接应用于文档检索模型，尤其是在多语言环境中进行文本匹配和相关性排序。

衍生相关工作

基于MIRACL-corpus数据集，研究者们开发了多种跨语言检索模型和多语言文本处理工具。例如，有研究利用该数据集进行多语言BERT模型的预训练，以提升其在跨语言任务中的表现。此外，该数据集还启发了许多关于多语言信息检索的学术研究，包括跨语言查询扩展、多语言文档排序算法等，进一步推动了多语言信息检索领域的技术进步。

数据集最近研究