miracl/miracl
收藏数据集卡片 for MIRACL (Topics and Qrels)
数据集描述
MIRACL (Multilingual Information Retrieval Across a Continuum of Languages) 是一个多语言检索数据集,专注于搜索18种不同语言,这些语言共同覆盖了全球超过30亿母语使用者。
该数据集包含16种“已知语言”的集合数据。剩余的2种“惊喜语言”将在稍后发布。
主题由每种语言的母语使用者生成,他们还标记了主题与给定文档列表之间的相关性。
本仓库仅包含MIRACL的主题和qrels。集合数据可以在这里找到。
数据集结构
-
下载文件:
-
在
miracl-v1.0-{lang}/topics文件夹下,主题以.tsv格式保存,每行格式为:qid query
-
在
miracl-v1.0-{lang}/qrels文件夹下,qrels以标准TREC格式保存,每行格式为:qid Q0 docid relevance
-
-
使用HuggingFace
datasets访问数据: python lang=ar # 或任何16种语言之一 miracl = datasets.load_dataset(miracl/miracl, lang, use_auth_token=True)训练集:
for data in miracl[train]: # 或 dev, testA query_id = data[query_id] query = data[query] positive_passages = data[positive_passages] negative_passages = data[negative_passages]
for entry in positive_passages: # 或 negative_passages docid = entry[docid] title = entry[title] text = entry[text]
train,dev, 和testA集的结构相同,其中testA仅存在于Mr. TyDi语言(即阿拉伯语、孟加拉语、英语、芬兰语、印度尼西亚语、日语、韩语、俄语、斯瓦希里语、泰卢固语、泰语)中。 注意,negative_passages也是由母语使用者标注的,而不是来自前k检索结果的非正样本。
数据集统计
下表包含每种语言的查询数量(#Q)和判断数量(#J),包括训练集和开发集,其中判断包括正样本和负样本。
| 语言 | 训练集 | 开发集 | ||
|---|---|---|---|---|
| #Q | #J | #Q | #J | |
| ar | 3,495 | 25,382 | 2,896 | 29,197 |
| bn | 1,631 | 16,754 | 411 | 4,206 |
| en | 2,863 | 29,416 | 799 | 8,350 |
| es | 2,162 | 21,531 | 648 | 6,443 |
| fa | 2,107 | 21,844 | 632 | 6,571 |
| fi | 2,897 | 20,350 | 1,271 | 12,008 |
| fr | 1,143 | 11,426 | 343 | 3,429 |
| hi | 1,169 | 11,668 | 350 | 3,494 |
| id | 4,071 | 41,358 | 960 | 9,668 |
| ja | 3,477 | 34,387 | 860 | 8,354 |
| ko | 868 | 12,767 | 213 | 3,057 |
| ru | 4,683 | 33,921 | 1,252 | 13,100 |
| sw | 1,901 | 9,359 | 482 | 5,092 |
| te | 3,452 | 18,608 | 828 | 1,606 |
| th | 2,972 | 21,293 | 733 | 7,573 |
| zh | 1,312 | 13,113 | 393 | 3,928 |



