PatronusAI/HaluBench

Name: PatronusAI/HaluBench
Creator: PatronusAI
Published: 2024-07-11 13:57:27
License: 暂无描述

Hugging Face2024-07-11 更新2024-07-13 收录

下载链接：

https://hf-mirror.com/datasets/PatronusAI/HaluBench

下载链接

链接失效反馈

官方服务：

资源简介：

HaluBench是一个包含15k样本的幻觉评估基准，这些样本由上下文-问题-答案三元组组成，并标注了是否包含幻觉。与之前的数据集相比，HaluBench是第一个包含来自现实世界领域（如金融和医学）的幻觉任务的开源基准。数据集来源于多个现有的QA数据集，如FinanceBench、PubmedQA、CovidQA、HaluEval、DROP和RAGTruth，并由Patronus AI整理。数据集主要用于评估幻觉检测模型，并提到了PatronusAI/Llama-3-Patronus-Lynx-70B-Instruct模型在该基准上的表现优于GPT-4o和Claude-Sonnet等模型。

HaluBench is a hallucination evaluation benchmark of 15k samples that consists of Context-Question-Answer triplets annotated for whether the examples contain hallucinations. Compared to prior datasets, HaluBench is the first open-source benchmark containing hallucination tasks sourced from real-world domains that include finance and medicine. The dataset is curated by Patronus AI and the language is English.

提供机构：

PatronusAI

原始信息汇总

数据集卡片概述

数据集详情

名称: HaluBench
描述: HaluBench 是一个包含 15k 样本的幻觉评估基准，由上下文-问题-答案三元组组成，标注了示例是否包含幻觉。与先前的数据集相比，HaluBench 是首个包含来自金融和医学等现实领域幻觉任务的开源基准。
数据来源: 数据集从多个现有的 QA 数据集中获取示例，构建了 (问题, 上下文, 答案, 标签) 的元组，其中标签是一个二进制分数，表示答案是否包含幻觉。示例来自 FinanceBench、PubmedQA、CovidQA、HaluEval、DROP 和 RAGTruth 等数据集。
语言: 英语
标签: hallucination-evaluation, benchmark
大小类别: 10K<n<100K
许可证: cc-by-nc-2.0
任务类别: text-generation
维护者: Patronus AI

数据集结构

特征:
- id: 字符串
- passage: 字符串
- question: 字符串
- answer: 字符串
- label: 字符串
- source_ds: 字符串
分割:
- test: 包含 14900 个样本，大小为 30159779 字节

使用

HaluBench 可用于评估幻觉检测模型。PatronusAI 的 Llama-3-Patronus-Lynx-70B-Instruct 模型在 HaluBench 上表现优于 GPT-4o、Claude-Sonnet 和其他开源模型。

5,000+

优质数据集

54 个

任务类型

进入经典数据集