five

miracl/miracl-corpus|多语言处理数据集|信息检索数据集

收藏
hugging_face2023-01-05 更新2024-03-04 收录
多语言处理
信息检索
下载链接:
https://hf-mirror.com/datasets/miracl/miracl-corpus
下载链接
链接失效反馈
资源简介:
MIRACL 🌍🙌🌏(跨语言连续体的多语言信息检索)是一个多语言检索数据集,专注于18种不同语言的检索,这些语言共同涵盖了全球超过30亿的母语使用者。该数据集包含16种“已知语言”的收集数据,剩余的2种“惊喜语言”将在稍后发布。每种语言的语料库均基于维基百科的转储,仅保留纯文本并丢弃图像、表格等内容。每篇文章根据自然话语单元(如维基标记中的` `)分割成多个段落,每个段落作为一个检索单元,并保留了每个段落的维基百科文章标题。
提供机构:
miracl
原始信息汇总

数据集卡片 for MIRACL Corpus

数据集描述

MIRACL(Multilingual Information Retrieval Across a Continuum of Languages)是一个多语言检索数据集,专注于18种不同语言的搜索,这些语言共同覆盖了全球超过30亿母语使用者。

该数据集包含16种“已知语言”的收集数据。其余2种“惊喜语言”将在稍后发布。

每个语言的语料库是从维基百科转储中准备的,我们只保留纯文本并丢弃图像、表格等。每个文章使用WikiExtractor根据自然论述单元(例如,`

`在维基标记中)分割成多个段落。每个段落构成一个“文档”或检索单元。我们保留每个段落的维基百科文章标题。

数据集结构

每个检索单元包含三个字段:docidtitletext。以下是一个来自英语语料库的示例:

json { "docid": "39#0", "title": "Albedo", "text": "Albedo (meaning whiteness) is the measure of the diffuse reflection of solar radiation out of the total solar radiation received by an astronomical body (e.g. a planet like Earth). It is dimensionless and measured on a scale from 0 (corresponding to a black body that absorbs all incident radiation) to 1 (corresponding to a body that reflects all incident radiation)." }

docid的格式为X#Y,其中所有具有相同X的段落来自同一篇维基百科文章,而Y表示该文章中的段落,按顺序编号。text字段包含段落的文本,title字段包含段落来源的文章名称。

可以使用以下代码加载集合:

python lang=ar # 或任何16种语言之一 miracl_corpus = datasets.load_dataset(miracl/miracl-corpus, lang)[train] for doc in miracl_corpus: docid = doc[docid] title = doc[title] text = doc[text]

数据集统计和链接

下表包含每个语言集合中的段落数量和维基百科文章数量,以及数据集和原始维基百科转储的链接。

语言 段落数量 文章数量 数据集链接 原始维基转储
阿拉伯语 (ar) 2,061,414 656,982 🤗 🌏
孟加拉语 (bn) 297,265 63,762 🤗 🌏
英语 (en) 32,893,221 5,758,285 🤗 🌏
西班牙语 (es) 10,373,953 1,669,181 🤗 🌏
波斯语 (fa) 2,207,172 857,827 🤗 🌏
芬兰语 (fi) 1,883,509 447,815 🤗 🌏
法语 (fr) 14,636,953 2,325,608 🤗 🌏
印地语 (hi) 506,264 148,107 🤗 🌏
印度尼西亚语 (id) 1,446,315 446,330 🤗 🌏
日语 (ja) 6,953,614 1,133,444 🤗 🌏
韩语 (ko) 1,486,752 437,373 🤗 🌏
俄语 (ru) 9,543,918 1,476,045 🤗 🌏
斯瓦希里语 (sw) 131,924 47,793 🤗 🌏
泰卢固语 (te) 518,079 66,353 🤗 🌏
泰语 (th) 542,166 128,179 🤗 🌏
中文 (zh) 4,934,368 1,246,389 🤗 🌏
AI搜集汇总
数据集介绍
main_image_url
构建方式
MIRACL-corpus数据集的构建基于维基百科的多语言文本资源,涵盖了18种语言,其中16种语言的数据已公开。数据集的构建过程包括从维基百科的原始数据中提取纯文本内容,去除图像、表格等非文本元素,并通过WikiExtractor工具将文章分割为多个段落,每个段落作为一个检索单元。每个检索单元包含三个字段:文档ID(docid)、标题(title)和文本内容(text)。文档ID采用'X#Y'格式,其中X表示同一篇文章的标识,Y表示该文章内的段落编号。
特点
MIRACL-corpus数据集的显著特点在于其多语言性和大规模性。该数据集涵盖了18种语言,覆盖了全球超过30亿母语使用者,为多语言信息检索提供了丰富的资源。每个语言的数据集均包含大量的段落和文章,且每个段落都保留了原始文章的标题,便于进行上下文关联分析。此外,数据集的结构化设计使得每个检索单元都具有明确的标识和内容,便于在信息检索任务中进行高效处理。
使用方法
MIRACL-corpus数据集可以通过HuggingFace的datasets库进行加载和使用。用户可以根据需要选择特定的语言数据集,并通过简单的代码加载和遍历数据。每个检索单元的字段包括docid、title和text,用户可以根据这些字段进行文本分析、检索模型训练等任务。数据集的加载示例代码展示了如何加载特定语言的数据,并遍历其中的文档信息,为研究者和开发者提供了便捷的使用接口。
背景与挑战
背景概述
MIRACL(Multilingual Information Retrieval Across a Continuum of Languages)数据集是由专家生成的多语言信息检索数据集,专注于跨越18种不同语言的搜索任务。该数据集涵盖了全球超过30亿母语使用者的语言,旨在推动多语言信息检索技术的发展。数据集的构建基于维基百科的文本数据,通过WikiExtractor工具将文章分割为多个段落,每个段落作为一个检索单元。MIRACL数据集的创建时间为2022年,主要研究人员和机构通过其论文(https://arxiv.org/abs/2210.09984)展示了该数据集的核心研究问题,即如何在多语言环境下实现高效的信息检索。该数据集对多语言信息检索领域的研究具有重要影响,为跨语言检索模型的开发和评估提供了丰富的资源。
当前挑战
MIRACL数据集在构建过程中面临多项挑战。首先,多语言数据的处理和标准化是一个复杂的问题,尤其是不同语言之间的语法结构、词汇表达和文化背景的差异。其次,从维基百科中提取和分割文本段落的过程需要精确的算法支持,以确保每个段落的语义完整性和检索单元的有效性。此外,数据集的规模和多样性也带来了存储和计算资源的挑战,尤其是在处理包含数百万段落的大型语料库时。最后,多语言信息检索模型的评估和比较也是一个重要的挑战,需要设计合适的评估指标和基准测试,以确保模型的跨语言检索性能。
常用场景
经典使用场景
MIRACL-corpus数据集的经典使用场景主要集中在多语言信息检索领域。该数据集通过提供18种语言的文本数据,支持跨语言检索任务,使得研究者和开发者能够在不同语言环境下进行高效的信息检索。其结构化的文档包含`docid`、`title`和`text`字段,便于直接应用于文档检索模型,尤其是在多语言环境中进行文本匹配和相关性排序。
衍生相关工作
基于MIRACL-corpus数据集,研究者们开发了多种跨语言检索模型和多语言文本处理工具。例如,有研究利用该数据集进行多语言BERT模型的预训练,以提升其在跨语言任务中的表现。此外,该数据集还启发了许多关于多语言信息检索的学术研究,包括跨语言查询扩展、多语言文档排序算法等,进一步推动了多语言信息检索领域的技术进步。
数据集最近研究
最新研究方向
在多语言信息检索领域,MIRACL-corpus数据集的最新研究方向主要集中在跨语言检索模型的优化与评估上。该数据集涵盖了18种语言,覆盖了全球超过三亿的原生语言使用者,为研究者提供了丰富的多语言文本资源。当前的研究热点包括如何利用这些多语言数据提升检索模型的跨语言一致性和准确性,特别是在低资源语言的处理上。此外,随着多语言模型如BERT和GPT的广泛应用,研究者也在探索如何将这些模型与MIRACL-corpus结合,以提高信息检索的效率和效果。这些研究不仅推动了多语言信息检索技术的发展,也为全球范围内的信息获取和知识传播提供了新的可能性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。

hugging_face 收录

BBGRE

The Brain & Body Genetic Resource Exchange (BBGRE) provides a resource for investigating the genetic basis of neurodisability. It combines phenotype information from patients with neurodevelopmental and behavioural problems with clinical genetic data, and displays this information on the human genome map.

国家生物信息中心 收录

中文高质量大模型多轮对话SFT数据集

该数据集来源于晴数智慧LLM多领域超自然SFT多轮对话文本数据集。该数据集包含97184轮中文自然对话句子,涉及【家庭生活、教育医疗、军事战争、科学技术、气候环境、人文科学、商业经济、数码产品、体育竞技、休闲娱乐、衣食住行、艺术美术、政治法律、职业发展、宗教信仰】15个主题。领域覆盖多样,也可以单独抽取相关领域的数据进行领域SFT。本次开源的部分数据,由来自中国的644名不同ID的采集人独家贡献,北京晴数智慧科技有限公司进行授权采集。每组对话由两位采集人围绕一个主题展开,上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力,以及端到端对话大模型。

OpenDataLab 收录