five

HaluEval

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/HaluEval
下载链接
链接失效反馈
官方服务:
资源简介:
HaluEval包括5,000个带有ChatGPT响应的一般用户查询,并从三个任务 (即问题回答,基于知识的对话和文本摘要) 中30,000特定于任务的示例。 对于一般用户查询,我们采用羊驼的52k指令调优数据集。为了进一步筛选llm最有可能产生幻觉的用户查询,我们使用ChatGPT为每个查询采样三个响应,并最终保留具有低相似性响应的查询,以进行人类标记。 此外,对于HaluEval中的特定任务示例,我们设计了一种自动方法来生成幻觉样本。首先,基于现有的任务数据集 (例如HotpotQA) 作为种子数据,我们为ChatGPT设计了特定于任务的指令,以两种方法生成幻觉样本,即一次通过和会话。其次,为了选择最合理和最困难的幻觉样本进行LLMs评估,我们详细阐述了通过真实示例增强的过滤指令,并利用ChatGPT进行样本选择。
提供机构:
OpenDataLab
创建时间:
2023-09-04
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作