miracl/nomiracl

Name: miracl/nomiracl
Creator: miracl
Published: 2024-11-23 19:30:15
License: 暂无描述

Hugging Face2024-11-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/miracl/nomiracl

下载链接

链接失效反馈

官方服务：

资源简介：

NoMIRACL是一个多语言的人为标注数据集，用于评估大型语言模型在检索增强生成中的相关性。它包含18种语言的查询和段落，分为不相关和相关的两个子集，旨在帮助研究者评估模型在处理外部检索知识中的错误时的稳健性。

NoMIRACL is a multilingual human-annotated dataset designed for evaluating the relevance of Large Language Models in Retrieval-Augmented Generation. It includes queries and passages in 18 languages, divided into two subsets: non-relevant and relevant, aiming to assist researchers in assessing the robustness of models when dealing with errors in external retrieved knowledge.

提供机构：

miracl

原始信息汇总

NoMIRACL 数据集概述

基本信息

标注创建者: 专家生成
语言: 阿拉伯语、孟加拉语、英语、西班牙语、波斯语、芬兰语、法语、印地语、印度尼西亚语、日语、韩语、俄语、斯瓦希里语、泰卢固语、泰语、中文
多语言性: 多语言
数据集大小: 10K<n<100K
源数据集: MIRACL/MIRACL
任务类别: 文本分类
许可证: Apache-2.0

数据集描述

NoMIRACL 是一个人工标注的数据集，旨在评估大型语言模型（LLM）在检索增强生成（RAG）中的鲁棒性，涵盖18种不同语言。数据集包括两个子集：non-relevant 和 relevant。non-relevant 子集包含所有段落被手动判定为不相关或噪声的查询，而 relevant 子集包含至少有一个被判定为相关段落的查询。

数据集结构

文件格式:
- 语料子集保存在 .jsonl.gz 格式中，每行格式如下： json {"docid": "28742#27", "title": "Supercontinent", "text": "Oxygen levels of the Archaean Eon were negligible and today they are roughly 21 percent. [ ... ]"}
- 主题保存在 .tsv 格式中，每行格式如下：
  
  qid query
- qrels 保存在标准 TREC 格式中，每行格式如下：
  
  qid Q0 docid relevance

数据访问

可以使用 HuggingFace datasets 库访问数据集： python import datasets

language = german # 或任何18种语言之一 subset = relevant # 或 non_relevant split = test # 或 dev 用于开发分割

四种组合：dev.relevant, dev.non_relevant, test.relevant 和 test.non_relevant

nomiracl = datasets.load_dataset(miracl/nomiracl, language, split=f{split}.{subset})

引用信息

bibtex @article{thakur2023nomiracl, title={NoMIRACL: Knowing When You Dont Know for Robust Multilingual Retrieval-Augmented Generation}, author={Nandan Thakur and Luiz Bonifacio and Xinyu Zhang and Odunayo Ogundepo and Ehsan Kamalloo and David Alfonso-Hermelo and Xiaoguang Li and Qun Liu and Boxing Chen and Mehdi Rezagholizadeh and Jimmy Lin}, journal={ArXiv}, year={2023}, volume={abs/2312.11361} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集