UHGEval hallucination dataset

github2024-02-15 更新2024-05-31 收录

下载链接：

https://github.com/IAAR-Shanghai/UHGEval-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

UHGEval幻觉数据集是一个用于研究和评估新闻领域机器续写幻觉现象的数据集。该数据集通过收集新闻文本，经过预处理、生成候选、自动标注和人工复核等步骤，最终形成包含幻觉现象标注的新闻文章集合。

UHGEval幻觉数据集乃是一项针对新闻领域机器续写幻觉现象的研究与评估之专用数据集。该数据集汇聚了新闻文本，历经预处理、候选生成、自动标注及人工复核等多重环节，最终构筑成为一个包含幻觉现象标注的新闻文章集成。

创建时间：

2024-02-15

原始信息汇总

数据集概述

1. 原始新闻数据

状态: 完整可用
数据位置: ./sources/xinhua/raw/
数量: 75个txt文件，总计737,766篇新闻
备注: 数据属于新华社，仅用于研究目的

2. 预处理后的新闻数据

状态: 需通过脚本生成
脚本: ./sources/xinhua/preprocessor.py
数据位置: ./sources/xinhua/processed
数量: 保留25,005篇新闻（占原始新闻的3.39%）
过滤设置:
- 仅包括特定类别新闻
- 新闻长度限制在630至870字
- 新闻开头部分句子数在2至5句，长度在80至120字

3. 生成候选新闻

状态: 需通过脚本生成
脚本: ./gen_candidates.py
数据位置: ./candidates/
数量: 保留17,503篇新闻（占预处理新闻的70.00%）
过滤设置:
- keywordPrecision范围在(0, 1)，通常应在(0.2, 0.6)
- candidateHallucinatedContinuation仅包含1句话，长度在20至70字
- appearedKeywords至少包含2个关键词

4. 自动标注

状态: 部分数据作为示例，需通过脚本生成
脚本: ./gen_machine_annotations.py
数据位置: ./machine_annotations/keyword_hallucinated
备注: 仅保留标记为有幻觉的新闻，无幻觉新闻位于./machine_annotations/unhallucinated

5. 人工复查

状态: 部分数据作为示例，需通过Label Studio导出
数据位置: ./label_studio_annotations/after_annotations
备注: 使用Label Studio进行人工复查，相关配置和指导文件位于./label_studio_annotations/

6. 最终幻觉数据集

状态: 完整可用
脚本: ./gen_hallucinations.py
数据位置: ./hallucinations/XinhuaHallucinations.json
数量: 保留5,141篇新闻（占候选新闻的29.37%）

搜集汇总

数据集介绍

构建方式

UHGEval幻觉数据集的构建过程经过精心设计，以确保数据的多样性和代表性。首先，从新华通讯社获取了737,766条原始新闻数据，随后通过预处理脚本筛选出25,005篇符合特定类别和长度要求的新闻文章。接着，利用生成候选脚本进一步筛选出17,503篇新闻，并通过自动标注脚本对含有幻觉的新闻进行标注。最后，使用Label Studio工具进行人工复核，确保标注的准确性，并最终生成包含5,141篇新闻的幻觉数据集。

特点

UHGEval幻觉数据集具有高度的专业性和针对性，涵盖了政治、法律、军事、教育等多个新闻类别。数据集的构建过程中，严格筛选了新闻的长度和内容，确保每篇新闻的开头部分包含2至5个句子，且长度在80至120字之间。此外，幻觉候选句子的长度控制在20至70字之间，且至少包含两个关键词，使得数据集在幻觉检测任务中具有较高的实用性和研究价值。

使用方法

使用UHGEval幻觉数据集时，研究人员可以通过加载最终的JSON文件，获取包含幻觉的新闻数据。数据集中的每篇新闻都经过自动标注和人工复核，确保了标注的准确性。研究人员可以利用这些数据进行幻觉检测模型的训练和评估，或进行相关的自然语言处理研究。此外，数据集还提供了详细的标注配置和培训材料，帮助用户更好地理解和使用数据。

背景与挑战

背景概述

UHGEval幻觉数据集由研究团队基于新华通讯社的新闻数据构建，旨在解决自然语言生成（NLG）领域中的幻觉问题。该数据集创建于2023年，核心研究问题聚焦于机器生成文本中出现的虚假或误导性信息，即所谓的“幻觉”现象。通过对新闻数据的预处理、候选生成、自动标注以及人工复核等多步骤流程，数据集最终保留了5141篇新闻文章，涵盖了政治、法律、军事、教育等多个领域。该数据集的发布为NLG模型的幻觉检测与优化提供了重要的基准资源，推动了相关领域的研究进展。

当前挑战

UHGEval幻觉数据集在构建过程中面临多重挑战。首先，数据预处理阶段需从海量原始新闻中筛选出符合特定长度和类别要求的文章，这一过程对数据的质量和代表性提出了较高要求。其次，在候选生成阶段，如何确保生成的幻觉文本既符合语法规则又具有足够的误导性，是一个技术难点。此外，自动标注的准确性直接影响后续人工复核的效率，而人工复核本身也面临标注一致性和主观性等问题。最终，如何从大量候选数据中筛选出最具代表性的幻觉样本，并确保数据集的多样性和平衡性，是构建过程中的核心挑战。

常用场景

经典使用场景

在自然语言处理领域，UHGEval幻觉数据集主要用于评估和检测文本生成模型中的幻觉现象。幻觉现象指的是模型生成的文本与输入内容不一致或引入虚假信息的情况。该数据集通过提供大量经过预处理的新闻文章及其对应的幻觉续写，为研究者提供了一个标准化的测试平台，用于验证模型在生成文本时的准确性和一致性。

实际应用

在实际应用中，UHGEval幻觉数据集被广泛用于新闻自动生成系统的质量评估。通过检测生成文本中的幻觉现象，系统可以自动修正或标记出不可靠的内容，从而提高新闻发布的准确性和可信度。此外，该数据集还可用于教育领域，帮助学生和研究者理解文本生成模型的局限性，并开发更智能的写作辅助工具。

衍生相关工作

基于UHGEval幻觉数据集，研究者们开发了多种幻觉检测和修正算法。例如，一些工作利用该数据集训练深度学习模型，自动识别生成文本中的幻觉片段。另一些研究则通过分析幻觉现象，提出了改进文本生成模型架构的新方法。这些衍生工作不仅丰富了自然语言处理领域的研究成果，还为实际应用中的文本生成系统提供了技术保障。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集