five

PatronusAI/HaluBench

收藏
Hugging Face2024-07-11 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/PatronusAI/HaluBench
下载链接
链接失效反馈
官方服务:
资源简介:
HaluBench是一个包含15k样本的幻觉评估基准,这些样本由上下文-问题-答案三元组组成,并标注了是否包含幻觉。与之前的数据集相比,HaluBench是第一个包含来自现实世界领域(如金融和医学)的幻觉任务的开源基准。数据集来源于多个现有的QA数据集,如FinanceBench、PubmedQA、CovidQA、HaluEval、DROP和RAGTruth,并由Patronus AI整理。数据集主要用于评估幻觉检测模型,并提到了PatronusAI/Llama-3-Patronus-Lynx-70B-Instruct模型在该基准上的表现优于GPT-4o和Claude-Sonnet等模型。

HaluBench is a hallucination evaluation benchmark of 15k samples that consists of Context-Question-Answer triplets annotated for whether the examples contain hallucinations. Compared to prior datasets, HaluBench is the first open-source benchmark containing hallucination tasks sourced from real-world domains that include finance and medicine. The dataset is curated by Patronus AI and the language is English.
提供机构:
PatronusAI
原始信息汇总

数据集卡片概述

数据集详情

  • 名称: HaluBench
  • 描述: HaluBench 是一个包含 15k 样本的幻觉评估基准,由上下文-问题-答案三元组组成,标注了示例是否包含幻觉。与先前的数据集相比,HaluBench 是首个包含来自金融和医学等现实领域幻觉任务的开源基准。
  • 数据来源: 数据集从多个现有的 QA 数据集中获取示例,构建了 (问题, 上下文, 答案, 标签) 的元组,其中标签是一个二进制分数,表示答案是否包含幻觉。示例来自 FinanceBench、PubmedQA、CovidQA、HaluEval、DROP 和 RAGTruth 等数据集。
  • 语言: 英语
  • 标签: hallucination-evaluation, benchmark
  • 大小类别: 10K<n<100K
  • 许可证: cc-by-nc-2.0
  • 任务类别: text-generation
  • 维护者: Patronus AI

数据集结构

  • 特征:
    • id: 字符串
    • passage: 字符串
    • question: 字符串
    • answer: 字符串
    • label: 字符串
    • source_ds: 字符串
  • 分割:
    • test: 包含 14900 个样本,大小为 30159779 字节

使用

HaluBench 可用于评估幻觉检测模型。PatronusAI 的 Llama-3-Patronus-Lynx-70B-Instruct 模型在 HaluBench 上表现优于 GPT-4o、Claude-Sonnet 和其他开源模型。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作