HaluEval
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/HaluEval
下载链接
链接失效反馈官方服务:
资源简介:
HaluEval包括5,000个带有ChatGPT响应的一般用户查询,并从三个任务 (即问题回答,基于知识的对话和文本摘要) 中30,000特定于任务的示例。
对于一般用户查询,我们采用羊驼的52k指令调优数据集。为了进一步筛选llm最有可能产生幻觉的用户查询,我们使用ChatGPT为每个查询采样三个响应,并最终保留具有低相似性响应的查询,以进行人类标记。
此外,对于HaluEval中的特定任务示例,我们设计了一种自动方法来生成幻觉样本。首先,基于现有的任务数据集 (例如HotpotQA) 作为种子数据,我们为ChatGPT设计了特定于任务的指令,以两种方法生成幻觉样本,即一次通过和会话。其次,为了选择最合理和最困难的幻觉样本进行LLMs评估,我们详细阐述了通过真实示例增强的过滤指令,并利用ChatGPT进行样本选择。
HaluEval consists of 5,000 general user queries paired with ChatGPT responses, as well as 30,000 task-specific examples sourced from three tasks: question answering, knowledge-grounded dialogue, and text summarization.
For the general user queries, we adopt the 52K instruction-tuning dataset from Alpaca. To further screen out user queries on which large language models (LLMs) are most prone to generating hallucinations, we use ChatGPT to sample three responses for each query, and finally retain those queries with low-similarity responses for human annotation.
Furthermore, for the task-specific examples in HaluEval, we design an automated method to generate hallucinatory samples. First, taking existing task datasets (e.g., HotpotQA) as seed data, we design task-specific instructions for ChatGPT to generate hallucinatory samples via two approaches: one-pass generation and conversational generation. Second, to select the most plausible and challenging hallucinatory samples for LLM evaluation, we elaborate on filtering instructions augmented with real-world examples, and leverage ChatGPT for sample selection.
提供机构:
OpenDataLab
创建时间:
2023-09-04
搜集汇总
数据集介绍

背景与挑战
背景概述
HaluEval是一个用于评估大型语言模型幻觉现象的大规模基准数据集,包含5,000个一般用户查询和30,000个特定任务示例,覆盖问题回答、基于知识的对话和文本摘要三个任务。数据集通过ChatGPT生成和筛选响应,旨在提供合理且困难的幻觉样本,以支持对语言模型输出准确性的评估。
以上内容由遇见数据集搜集并总结生成



