miracl/nomiracl
收藏NoMIRACL 数据集概述
基本信息
- 标注创建者: 专家生成
- 语言: 阿拉伯语、孟加拉语、英语、西班牙语、波斯语、芬兰语、法语、印地语、印度尼西亚语、日语、韩语、俄语、斯瓦希里语、泰卢固语、泰语、中文
- 多语言性: 多语言
- 数据集大小: 10K<n<100K
- 源数据集: MIRACL/MIRACL
- 任务类别: 文本分类
- 许可证: Apache-2.0
数据集描述
NoMIRACL 是一个人工标注的数据集,旨在评估大型语言模型(LLM)在检索增强生成(RAG)中的鲁棒性,涵盖18种不同语言。数据集包括两个子集:non-relevant 和 relevant。non-relevant 子集包含所有段落被手动判定为不相关或噪声的查询,而 relevant 子集包含至少有一个被判定为相关段落的查询。
数据集结构
- 文件格式:
-
语料子集保存在
.jsonl.gz格式中,每行格式如下: json {"docid": "28742#27", "title": "Supercontinent", "text": "Oxygen levels of the Archaean Eon were negligible and today they are roughly 21 percent. [ ... ]"} -
主题保存在
.tsv格式中,每行格式如下:qid query
-
qrels 保存在标准 TREC 格式中,每行格式如下:
qid Q0 docid relevance
-
数据访问
可以使用 HuggingFace datasets 库访问数据集:
python
import datasets
language = german # 或任何18种语言之一 subset = relevant # 或 non_relevant split = test # 或 dev 用于开发分割
四种组合:dev.relevant, dev.non_relevant, test.relevant 和 test.non_relevant
nomiracl = datasets.load_dataset(miracl/nomiracl, language, split=f{split}.{subset})
引用信息
bibtex @article{thakur2023nomiracl, title={NoMIRACL: Knowing When You Dont Know for Robust Multilingual Retrieval-Augmented Generation}, author={Nandan Thakur and Luiz Bonifacio and Xinyu Zhang and Odunayo Ogundepo and Ehsan Kamalloo and David Alfonso-Hermelo and Xiaoguang Li and Qun Liu and Boxing Chen and Mehdi Rezagholizadeh and Jimmy Lin}, journal={ArXiv}, year={2023}, volume={abs/2312.11361} }



