miracl/miracl

Name: miracl/miracl
Creator: miracl
Published: 2024-12-29 05:45:14
License: 暂无描述

Hugging Face2024-12-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/miracl/miracl

下载链接

链接失效反馈

官方服务：

资源简介：

MIRACL（跨语言连续体的多语言信息检索）是一个多语言检索数据集，专注于18种不同语言的搜索，这些语言在全球范围内拥有超过30亿的母语使用者。该数据集包含16种已知语言的收集数据，另外2种惊喜语言的数据将在稍后发布。数据集的主题由每种语言的母语者生成，并且他们还会标记主题与给定文档列表之间的相关性。该存储库仅包含MIRACL的主题和qrels。数据集的结构包括主题和qrels，分别以.tsv和标准TREC格式保存。

提供机构：

miracl

原始信息汇总

数据集卡片 for MIRACL (Topics and Qrels)

数据集描述

MIRACL (Multilingual Information Retrieval Across a Continuum of Languages) 是一个多语言检索数据集，专注于搜索18种不同语言，这些语言共同覆盖了全球超过30亿母语使用者。

该数据集包含16种“已知语言”的集合数据。剩余的2种“惊喜语言”将在稍后发布。

主题由每种语言的母语使用者生成，他们还标记了主题与给定文档列表之间的相关性。

本仓库仅包含MIRACL的主题和qrels。集合数据可以在这里找到。

数据集结构

下载文件：
- 在miracl-v1.0-{lang}/topics文件夹下，主题以.tsv格式保存，每行格式为：
  
  qid query
- 在miracl-v1.0-{lang}/qrels文件夹下，qrels以标准TREC格式保存，每行格式为：
  
  qid Q0 docid relevance
使用HuggingFace datasets访问数据： python lang=ar # 或任何16种语言之一 miracl = datasets.load_dataset(miracl/miracl, lang, use_auth_token=True)

训练集：

for data in miracl[train]: # 或 dev, testA query_id = data[query_id] query = data[query] positive_passages = data[positive_passages] negative_passages = data[negative_passages]

for entry in positive_passages: # 或 negative_passages docid = entry[docid] title = entry[title] text = entry[text]

train, dev, 和 testA 集的结构相同，其中 testA 仅存在于Mr. TyDi语言（即阿拉伯语、孟加拉语、英语、芬兰语、印度尼西亚语、日语、韩语、俄语、斯瓦希里语、泰卢固语、泰语）中。注意，negative_passages 也是由母语使用者标注的，而不是来自前k检索结果的非正样本。

数据集统计

下表包含每种语言的查询数量（#Q）和判断数量（#J），包括训练集和开发集，其中判断包括正样本和负样本。

语言	训练集		开发集
	#Q	#J	#Q	#J
ar	3,495	25,382	2,896	29,197
bn	1,631	16,754	411	4,206
en	2,863	29,416	799	8,350
es	2,162	21,531	648	6,443
fa	2,107	21,844	632	6,571
fi	2,897	20,350	1,271	12,008
fr	1,143	11,426	343	3,429
hi	1,169	11,668	350	3,494
id	4,071	41,358	960	9,668
ja	3,477	34,387	860	8,354
ko	868	12,767	213	3,057
ru	4,683	33,921	1,252	13,100
sw	1,901	9,359	482	5,092
te	3,452	18,608	828	1,606
th	2,972	21,293	733	7,573
zh	1,312	13,113	393	3,928

5,000+

优质数据集

54 个

任务类型

进入经典数据集

miracl/miracl

数据集卡片 for MIRACL (Topics and Qrels)

数据集描述

数据集结构

训练集：

数据集统计