AutoHall

github2024-09-25 更新2024-09-26 收录

下载链接：

https://github.com/zouyingcao/AutoHall

下载链接

链接失效反馈

资源简介：

该数据集用于生成和收集大型语言模型中的幻觉数据，包括事实检查数据集和收集到的幻觉数据集。

创建时间：

2024-09-24

原始信息汇总

AutoHall: Automated Hallucination Dataset Generation for Large Language Models

数据集概述

该数据集用于自动化生成大型语言模型（LLMs）的幻觉数据集。数据集包括由ChatGPT和Llama2-Chat系列模型生成的幻觉数据，以及用于参考生成的现有事实核查数据集。

数据集内容

ChatGPT生成的幻觉数据
- 基于Climate-fever数据集的幻觉分析
- 基于Pubhealth数据集的幻觉分析
- 基于WICE数据集的幻觉分析
Llama2-Chat系列生成的幻觉数据
- Llama2-7B-Chat生成的幻觉分析
- Llama2-13B-Chat生成的幻觉分析
现有事实核查数据集
- 用于参考生成的现有事实核查数据集

数据集结构

code/ChatGPT dir: 包含用于收集ChatGPT生成幻觉的代码
code/Llama2-Chat dir: 包含用于收集Llama2-Chat系列生成幻觉的代码
dataset/fact-checking datasets dir: 包含用于参考生成的现有事实核查数据集
dataset/other dirs: 包含收集到的幻觉数据集

引用

@article{cao2023autohall, title={Autohall: Automated hallucination dataset generation for large language models}, author={Cao, Zouying and Yang, Yifei and Zhao, Hai}, journal={arXiv preprint arXiv:2310.00259}, year={2023} }

AI搜集汇总

数据集介绍

构建方式

在构建AutoHall数据集的过程中，研究者们采用了自动化方法来生成幻觉数据。首先，通过调用GPT-3.5-turbo和Llama2-Chat系列模型，针对特定的数据集（如Climate-fever、Pubhealth和WICE）生成幻觉内容。随后，利用dataset_construct.py脚本进行幻觉检测数据集的创建，并通过multi_ref_construct.py脚本收集多个样本参考数据。这一过程确保了数据集的多样性和广泛性，为后续的幻觉检测提供了坚实的基础。

特点

AutoHall数据集的显著特点在于其自动化生成和多样性。通过结合多个大型语言模型（如ChatGPT和Llama2-Chat），该数据集不仅涵盖了广泛的领域（如气候、公共卫生等），还包含了多种类型的幻觉内容。此外，数据集的构建过程中采用了多参考样本收集方法，确保了数据的全面性和可靠性，为幻觉检测研究提供了丰富的资源。

使用方法

使用AutoHall数据集时，研究者可以首先通过dataset/fact-checking datasets目录获取现有的事实核查数据集作为参考。随后，利用code目录下的脚本进行数据分析和幻觉检测。例如，可以使用analyse.py和content_analysis.py脚本分析幻觉的内容和主题，或使用cal_result.py脚本计算幻觉的比例。此外，baselines.ipynb文件提供了基线实验结果的分析，帮助研究者更好地理解和应用该数据集。

背景与挑战

背景概述

AutoHall数据集由Cao, Zouying, Yang, Yifei和Zhao, Hai等研究人员于2023年创建，旨在解决大规模语言模型（LLMs）中的幻觉问题。该数据集通过自动化方法生成，涵盖了ChatGPT和Llama2-Chat系列模型生成的幻觉数据，主要用于幻觉检测和事实核查。AutoHall的创建不仅为研究者提供了一个评估和改进LLMs性能的工具，还推动了自然语言处理领域对幻觉现象的深入理解。

当前挑战

AutoHall数据集在构建过程中面临多项挑战。首先，幻觉数据的生成依赖于复杂的模型调用和数据处理，确保数据质量和多样性是一个重要挑战。其次，幻觉检测方法的开发需要克服现有事实核查数据集的局限性，确保检测算法的准确性和鲁棒性。此外，数据集的构建还需考虑如何有效整合多源数据，以提高幻觉检测的全面性和可靠性。

常用场景

经典使用场景

在自然语言处理领域，AutoHall数据集的经典使用场景主要集中在大型语言模型（LLMs）的幻觉检测与生成。通过分析ChatGPT和Llama2-Chat系列模型生成的幻觉数据，研究人员可以深入探讨这些模型在处理特定领域（如气候变化、公共卫生和WICE数据集）时的表现。这种分析不仅有助于理解模型的局限性，还能为改进模型的真实性和可靠性提供宝贵的见解。

衍生相关工作

AutoHall数据集的发布催生了一系列相关研究工作，特别是在幻觉检测和生成领域的深入探索。例如，基于该数据集的研究已经提出了多种新的幻觉检测方法，这些方法在提高模型输出的准确性方面表现出色。此外，还有研究者利用AutoHall数据集进行跨模型的性能比较，以揭示不同模型在处理幻觉问题上的差异。这些衍生工作不仅丰富了自然语言处理的研究内容，也为实际应用提供了更多技术支持。

数据集最近研究