HaluEval
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/HaluEval
下载链接
链接失效反馈官方服务:
资源简介:
HaluEval包括5,000个带有ChatGPT响应的一般用户查询,并从三个任务 (即问题回答,基于知识的对话和文本摘要) 中30,000特定于任务的示例。
对于一般用户查询,我们采用羊驼的52k指令调优数据集。为了进一步筛选llm最有可能产生幻觉的用户查询,我们使用ChatGPT为每个查询采样三个响应,并最终保留具有低相似性响应的查询,以进行人类标记。
此外,对于HaluEval中的特定任务示例,我们设计了一种自动方法来生成幻觉样本。首先,基于现有的任务数据集 (例如HotpotQA) 作为种子数据,我们为ChatGPT设计了特定于任务的指令,以两种方法生成幻觉样本,即一次通过和会话。其次,为了选择最合理和最困难的幻觉样本进行LLMs评估,我们详细阐述了通过真实示例增强的过滤指令,并利用ChatGPT进行样本选择。
提供机构:
OpenDataLab
创建时间:
2023-09-04



