PatronusAI/HaluBench
收藏Hugging Face2024-07-11 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/PatronusAI/HaluBench
下载链接
链接失效反馈官方服务:
资源简介:
HaluBench是一个包含15k样本的幻觉评估基准,这些样本由上下文-问题-答案三元组组成,并标注了是否包含幻觉。与之前的数据集相比,HaluBench是第一个包含来自现实世界领域(如金融和医学)的幻觉任务的开源基准。数据集来源于多个现有的QA数据集,如FinanceBench、PubmedQA、CovidQA、HaluEval、DROP和RAGTruth,并由Patronus AI整理。数据集主要用于评估幻觉检测模型,并提到了PatronusAI/Llama-3-Patronus-Lynx-70B-Instruct模型在该基准上的表现优于GPT-4o和Claude-Sonnet等模型。
HaluBench is a hallucination evaluation benchmark of 15k samples that consists of Context-Question-Answer triplets annotated for whether the examples contain hallucinations. Compared to prior datasets, HaluBench is the first open-source benchmark containing hallucination tasks sourced from real-world domains that include finance and medicine. The dataset is curated by Patronus AI and the language is English.
提供机构:
PatronusAI
原始信息汇总
数据集卡片概述
数据集详情
- 名称: HaluBench
- 描述: HaluBench 是一个包含 15k 样本的幻觉评估基准,由上下文-问题-答案三元组组成,标注了示例是否包含幻觉。与先前的数据集相比,HaluBench 是首个包含来自金融和医学等现实领域幻觉任务的开源基准。
- 数据来源: 数据集从多个现有的 QA 数据集中获取示例,构建了 (问题, 上下文, 答案, 标签) 的元组,其中标签是一个二进制分数,表示答案是否包含幻觉。示例来自 FinanceBench、PubmedQA、CovidQA、HaluEval、DROP 和 RAGTruth 等数据集。
- 语言: 英语
- 标签: hallucination-evaluation, benchmark
- 大小类别: 10K<n<100K
- 许可证: cc-by-nc-2.0
- 任务类别: text-generation
- 维护者: Patronus AI
数据集结构
- 特征:
id: 字符串passage: 字符串question: 字符串answer: 字符串label: 字符串source_ds: 字符串
- 分割:
test: 包含 14900 个样本,大小为 30159779 字节
使用
HaluBench 可用于评估幻觉检测模型。PatronusAI 的 Llama-3-Patronus-Lynx-70B-Instruct 模型在 HaluBench 上表现优于 GPT-4o、Claude-Sonnet 和其他开源模型。



