AutoHall
收藏github2024-09-25 更新2024-09-26 收录
下载链接:
https://github.com/zouyingcao/AutoHall
下载链接
链接失效反馈资源简介:
该数据集用于生成和收集大型语言模型中的幻觉数据,包括事实检查数据集和收集到的幻觉数据集。
创建时间:
2024-09-24
原始信息汇总
AutoHall: Automated Hallucination Dataset Generation for Large Language Models
数据集概述
该数据集用于自动化生成大型语言模型(LLMs)的幻觉数据集。数据集包括由ChatGPT和Llama2-Chat系列模型生成的幻觉数据,以及用于参考生成的现有事实核查数据集。
数据集内容
-
ChatGPT生成的幻觉数据
- 基于Climate-fever数据集的幻觉分析
- 基于Pubhealth数据集的幻觉分析
- 基于WICE数据集的幻觉分析
-
Llama2-Chat系列生成的幻觉数据
- Llama2-7B-Chat生成的幻觉分析
- Llama2-13B-Chat生成的幻觉分析
-
现有事实核查数据集
- 用于参考生成的现有事实核查数据集
数据集结构
- code/ChatGPT dir: 包含用于收集ChatGPT生成幻觉的代码
- code/Llama2-Chat dir: 包含用于收集Llama2-Chat系列生成幻觉的代码
- dataset/fact-checking datasets dir: 包含用于参考生成的现有事实核查数据集
- dataset/other dirs: 包含收集到的幻觉数据集
引用
@article{cao2023autohall, title={Autohall: Automated hallucination dataset generation for large language models}, author={Cao, Zouying and Yang, Yifei and Zhao, Hai}, journal={arXiv preprint arXiv:2310.00259}, year={2023} }
AI搜集汇总
数据集介绍

构建方式
在构建AutoHall数据集的过程中,研究者们采用了自动化方法来生成幻觉数据。首先,通过调用GPT-3.5-turbo和Llama2-Chat系列模型,针对特定的数据集(如Climate-fever、Pubhealth和WICE)生成幻觉内容。随后,利用dataset_construct.py脚本进行幻觉检测数据集的创建,并通过multi_ref_construct.py脚本收集多个样本参考数据。这一过程确保了数据集的多样性和广泛性,为后续的幻觉检测提供了坚实的基础。
特点
AutoHall数据集的显著特点在于其自动化生成和多样性。通过结合多个大型语言模型(如ChatGPT和Llama2-Chat),该数据集不仅涵盖了广泛的领域(如气候、公共卫生等),还包含了多种类型的幻觉内容。此外,数据集的构建过程中采用了多参考样本收集方法,确保了数据的全面性和可靠性,为幻觉检测研究提供了丰富的资源。
使用方法
使用AutoHall数据集时,研究者可以首先通过dataset/fact-checking datasets目录获取现有的事实核查数据集作为参考。随后,利用code目录下的脚本进行数据分析和幻觉检测。例如,可以使用analyse.py和content_analysis.py脚本分析幻觉的内容和主题,或使用cal_result.py脚本计算幻觉的比例。此外,baselines.ipynb文件提供了基线实验结果的分析,帮助研究者更好地理解和应用该数据集。
背景与挑战
背景概述
AutoHall数据集由Cao, Zouying, Yang, Yifei和Zhao, Hai等研究人员于2023年创建,旨在解决大规模语言模型(LLMs)中的幻觉问题。该数据集通过自动化方法生成,涵盖了ChatGPT和Llama2-Chat系列模型生成的幻觉数据,主要用于幻觉检测和事实核查。AutoHall的创建不仅为研究者提供了一个评估和改进LLMs性能的工具,还推动了自然语言处理领域对幻觉现象的深入理解。
当前挑战
AutoHall数据集在构建过程中面临多项挑战。首先,幻觉数据的生成依赖于复杂的模型调用和数据处理,确保数据质量和多样性是一个重要挑战。其次,幻觉检测方法的开发需要克服现有事实核查数据集的局限性,确保检测算法的准确性和鲁棒性。此外,数据集的构建还需考虑如何有效整合多源数据,以提高幻觉检测的全面性和可靠性。
常用场景
经典使用场景
在自然语言处理领域,AutoHall数据集的经典使用场景主要集中在大型语言模型(LLMs)的幻觉检测与生成。通过分析ChatGPT和Llama2-Chat系列模型生成的幻觉数据,研究人员可以深入探讨这些模型在处理特定领域(如气候变化、公共卫生和WICE数据集)时的表现。这种分析不仅有助于理解模型的局限性,还能为改进模型的真实性和可靠性提供宝贵的见解。
衍生相关工作
AutoHall数据集的发布催生了一系列相关研究工作,特别是在幻觉检测和生成领域的深入探索。例如,基于该数据集的研究已经提出了多种新的幻觉检测方法,这些方法在提高模型输出的准确性方面表现出色。此外,还有研究者利用AutoHall数据集进行跨模型的性能比较,以揭示不同模型在处理幻觉问题上的差异。这些衍生工作不仅丰富了自然语言处理的研究内容,也为实际应用提供了更多技术支持。
数据集最近研究
最新研究方向
在大型语言模型(LLMs)领域,AutoHall数据集的最新研究方向聚焦于自动化幻觉数据集的生成与检测。该数据集通过收集和分析ChatGPT和Llama2-Chat系列模型生成的幻觉数据,探索了在气候、公共卫生和WICE等特定领域中的幻觉现象。研究不仅关注幻觉的生成机制,还开发了相应的检测方法和数据集构建工具,旨在提升LLMs在事实核查和内容生成中的准确性。这一研究方向对于增强LLMs的可信度和应用范围具有重要意义,尤其是在需要高度准确性的专业领域。
以上内容由AI搜集并总结生成



