five

miracl/nomiracl

收藏
Hugging Face2024-11-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/miracl/nomiracl
下载链接
链接失效反馈
官方服务:
资源简介:
NoMIRACL是一个多语言的人为标注数据集,用于评估大型语言模型在检索增强生成中的相关性。它包含18种语言的查询和段落,分为不相关和相关的两个子集,旨在帮助研究者评估模型在处理外部检索知识中的错误时的稳健性。

NoMIRACL is a multilingual human-annotated dataset designed for evaluating the relevance of Large Language Models in Retrieval-Augmented Generation. It includes queries and passages in 18 languages, divided into two subsets: non-relevant and relevant, aiming to assist researchers in assessing the robustness of models when dealing with errors in external retrieved knowledge.
提供机构:
miracl
原始信息汇总

NoMIRACL 数据集概述

基本信息

  • 标注创建者: 专家生成
  • 语言: 阿拉伯语、孟加拉语、英语、西班牙语、波斯语、芬兰语、法语、印地语、印度尼西亚语、日语、韩语、俄语、斯瓦希里语、泰卢固语、泰语、中文
  • 多语言性: 多语言
  • 数据集大小: 10K<n<100K
  • 源数据集: MIRACL/MIRACL
  • 任务类别: 文本分类
  • 许可证: Apache-2.0

数据集描述

NoMIRACL 是一个人工标注的数据集,旨在评估大型语言模型(LLM)在检索增强生成(RAG)中的鲁棒性,涵盖18种不同语言。数据集包括两个子集:non-relevantrelevantnon-relevant 子集包含所有段落被手动判定为不相关或噪声的查询,而 relevant 子集包含至少有一个被判定为相关段落的查询。

数据集结构

  • 文件格式:
    • 语料子集保存在 .jsonl.gz 格式中,每行格式如下: json {"docid": "28742#27", "title": "Supercontinent", "text": "Oxygen levels of the Archaean Eon were negligible and today they are roughly 21 percent. [ ... ]"}

    • 主题保存在 .tsv 格式中,每行格式如下:

      qid query

    • qrels 保存在标准 TREC 格式中,每行格式如下:

      qid Q0 docid relevance

数据访问

可以使用 HuggingFace datasets 库访问数据集: python import datasets

language = german # 或任何18种语言之一 subset = relevant # 或 non_relevant split = test # 或 dev 用于开发分割

四种组合:dev.relevant, dev.non_relevant, test.relevant 和 test.non_relevant

nomiracl = datasets.load_dataset(miracl/nomiracl, language, split=f{split}.{subset})

引用信息

bibtex @article{thakur2023nomiracl, title={NoMIRACL: Knowing When You Dont Know for Robust Multilingual Retrieval-Augmented Generation}, author={Nandan Thakur and Luiz Bonifacio and Xinyu Zhang and Odunayo Ogundepo and Ehsan Kamalloo and David Alfonso-Hermelo and Xiaoguang Li and Qun Liu and Boxing Chen and Mehdi Rezagholizadeh and Jimmy Lin}, journal={ArXiv}, year={2023}, volume={abs/2312.11361} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作