five

miracl/miracl

收藏
Hugging Face2024-12-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/miracl/miracl
下载链接
链接失效反馈
官方服务:
资源简介:
MIRACL(跨语言连续体的多语言信息检索)是一个多语言检索数据集,专注于18种不同语言的搜索,这些语言在全球范围内拥有超过30亿的母语使用者。该数据集包含16种已知语言的收集数据,另外2种惊喜语言的数据将在稍后发布。数据集的主题由每种语言的母语者生成,并且他们还会标记主题与给定文档列表之间的相关性。该存储库仅包含MIRACL的主题和qrels。数据集的结构包括主题和qrels,分别以.tsv和标准TREC格式保存。
提供机构:
miracl
原始信息汇总

数据集卡片 for MIRACL (Topics and Qrels)

数据集描述

MIRACL (Multilingual Information Retrieval Across a Continuum of Languages) 是一个多语言检索数据集,专注于搜索18种不同语言,这些语言共同覆盖了全球超过30亿母语使用者。

该数据集包含16种“已知语言”的集合数据。剩余的2种“惊喜语言”将在稍后发布。

主题由每种语言的母语使用者生成,他们还标记了主题与给定文档列表之间的相关性。

本仓库仅包含MIRACL的主题和qrels。集合数据可以在这里找到。

数据集结构

  1. 下载文件:

    • miracl-v1.0-{lang}/topics文件夹下,主题以.tsv格式保存,每行格式为:

      qid query

    • miracl-v1.0-{lang}/qrels文件夹下,qrels以标准TREC格式保存,每行格式为:

      qid Q0 docid relevance

  2. 使用HuggingFace datasets访问数据: python lang=ar # 或任何16种语言之一 miracl = datasets.load_dataset(miracl/miracl, lang, use_auth_token=True)

    训练集:

    for data in miracl[train]: # 或 dev, testA query_id = data[query_id] query = data[query] positive_passages = data[positive_passages] negative_passages = data[negative_passages]

    for entry in positive_passages: # 或 negative_passages docid = entry[docid] title = entry[title] text = entry[text]

    train, dev, 和 testA 集的结构相同,其中 testA 仅存在于Mr. TyDi语言(即阿拉伯语、孟加拉语、英语、芬兰语、印度尼西亚语、日语、韩语、俄语、斯瓦希里语、泰卢固语、泰语)中。 注意,negative_passages 也是由母语使用者标注的,而不是来自前k检索结果的非正样本。

数据集统计

下表包含每种语言的查询数量(#Q)和判断数量(#J),包括训练集和开发集,其中判断包括正样本和负样本。

语言 训练集 开发集
#Q #J #Q #J
ar 3,495 25,382 2,896 29,197
bn 1,631 16,754 411 4,206
en 2,863 29,416 799 8,350
es 2,162 21,531 648 6,443
fa 2,107 21,844 632 6,571
fi 2,897 20,350 1,271 12,008
fr 1,143 11,426 343 3,429
hi 1,169 11,668 350 3,494
id 4,071 41,358 960 9,668
ja 3,477 34,387 860 8,354
ko 868 12,767 213 3,057
ru 4,683 33,921 1,252 13,100
sw 1,901 9,359 482 5,092
te 3,452 18,608 828 1,606
th 2,972 21,293 733 7,573
zh 1,312 13,113 393 3,928
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作