potsawee/wiki_bio_gpt3_hallucination

Name: potsawee/wiki_bio_gpt3_hallucination
Creator: potsawee
Published: 2023-05-29 23:14:09
License: 暂无描述

Hugging Face2023-05-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/potsawee/wiki_bio_gpt3_hallucination

下载链接

链接失效反馈

官方服务：

资源简介：

WikiBio GPT-3 Hallucination Dataset是一个用于检测生成式大语言模型（如GPT-3）幻觉现象的数据集。该数据集通过GPT-3生成类似维基百科的段落，并对每个句子进行标注，分为准确、轻微不准确和严重不准确三类。数据集包含238个测试ID，每个实例包括GPT-3生成的文本、实际维基百科文本、分割后的句子、人工标注、原始WikiBio数据集的测试ID以及GPT-3采样的文本列表。

提供机构：

potsawee

原始信息汇总

数据集概述

名称: WikiBio GPT-3 Hallucination Dataset

许可: CC-BY-SA-3.0

任务类别: 文本分类

语言: 英语

数据集大小: 小于1000条记录

数据集特征

gpt3_text: GPT-3生成的文本，数据类型为字符串。
wiki_bio_text: 实际的维基百科文本（第一段），数据类型为字符串。
gpt3_sentences: gpt3_text分割成的句子，数据类型为字符串序列。
annotation: 句子级别的人工标注，数据类型为字符串序列。
wiki_bio_test_idx: 原始wikibio数据集中概念/个体的ID，数据类型为int64。
gpt3_text_samples: 20个采样文本列表，数据类型为字符串序列。

数据集分割

评估集: 包含238个示例，总字节数为5042581。

数据集更新历史

v3 (5 May 2023): 总计238个测试ID已标注。
v2 (6 April 2023): 142个测试ID已标注，GPT-3采样文本已包含在此数据集中。
v1 (15 March 2023): 65个测试ID。

数据集结构

每个实例包含以下信息：

gpt3_text: GPT-3生成的文本。
wiki_bio_text: 实际的维基百科文本。
gpt3_sentences: gpt3_text分割成的句子。
annotation: 句子级别的人工标注。
wiki_bio_test_idx: 概念/个体的ID。
gpt3_text_samples: 20个采样文本列表。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估生成模型的幻觉现象是当前研究的热点。该数据集的构建始于从WikiBio数据集中选取特定个体概念，利用GPT-3模型（text-davinci-003）以“这是关于{概念}的维基百科段落”为提示语，生成模拟维基百科风格的文本段落。随后，通过spacy工具将生成文本切分为独立句子，并邀请标注者对每个句子进行人工标注，依据准确性划分为“准确”、“轻微不准确”和“严重不准确”三类。整个标注过程严格遵循学术规范，详细的数据统计与标注者间一致性指标均在相关论文中予以报告，确保了数据构建的科学性与可靠性。

特点

该数据集聚焦于生成模型幻觉检测，其核心特征体现在多维度标注与丰富的数据结构。数据集包含238个测试实例，每个实例均提供GPT-3生成的文本、对应的真实维基百科首段文本，以及将生成文本分割后的句子列表。尤为重要的是，每个句子均附有人工标注的准确性标签，为幻觉现象的细粒度分析提供了可能。此外，数据集还保留了原始WikiBio测试集的索引标识，并额外包含了20个采用采样策略生成的文本变体，这些设计使得数据集不仅支持幻觉检测，还能促进生成文本的多样性与稳定性研究。

使用方法

该数据集主要服务于大语言模型幻觉检测的评估与算法开发。研究人员可首先加载数据集，利用`gpt3_sentences`与`annotation`字段进行句子级别的幻觉分类模型训练或评估，例如开发无需参考信息的黑盒检测方法。其次，通过对比`gpt3_text`与`wiki_bio_text`，可以进行生成文本与真实文本的差异分析，探究幻觉的具体表现形式。此外，`gpt3_text_samples`字段提供的多个生成样本，可用于研究生成过程的随机性及其与幻觉产生的关系。数据集通常以评估分割形式提供，可直接用于测试已训练模型或验证新提出的幻觉检测算法的有效性。

背景与挑战

背景概述

随着生成式大语言模型的广泛应用，其产生的事实性错误或幻觉问题日益成为自然语言处理领域的关键挑战。为系统评估模型生成文本的可靠性，剑桥大学的研究团队于2023年创建了WikiBio GPT-3幻觉数据集。该数据集以WikiBio人物传记条目为基础，通过GPT-3生成模拟维基百科风格的文本，并由人工逐句标注准确性，旨在为零资源黑盒场景下的幻觉检测提供基准数据，推动了生成模型可信评估方法的发展。

当前挑战

该数据集致力于解决生成式大语言模型在开放域文本生成中的幻觉问题，即模型生成与事实不符或无法验证的内容。构建过程中的挑战包括：确保标注的一致性，要求标注者细致区分细微不准确与重大不准确；处理生成文本的多样性，GPT-3在不同采样设置下可能产生多版本输出；以及保持与原始WikiBio数据的对应，以支持跨文本的精确对比分析。

常用场景

经典使用场景

在自然语言处理领域，大规模语言模型生成文本的幻觉检测已成为评估模型可靠性的关键环节。WikiBio GPT-3 Hallucination Dataset通过对比GPT-3生成的维基百科式段落与真实维基百科文本，为研究者提供了标注精细的句子级幻觉数据。该数据集常用于训练和评估黑盒幻觉检测方法，特别是在零资源设置下，帮助模型识别生成内容中的准确、轻微不准确和严重不准确信息，从而推动生成文本质量的可控性研究。

解决学术问题

该数据集直接针对生成式语言模型中的幻觉问题，即模型产生与事实不符或无法验证的内容。通过提供人工标注的句子级准确性分类，它解决了幻觉检测中缺乏高质量基准数据的难题，支持开发无需访问模型内部参数的检测技术。其意义在于促进了模型可信度评估的标准化，为减少生成文本的误导性提供了实证基础，对提升语言模型在知识密集型任务中的实用性具有深远影响。

衍生相关工作

基于该数据集，相关研究已衍生出多项经典工作，如SelfCheckGPT等零资源黑盒检测方法。这些工作利用数据集中的多采样段落和标注信息，开发了无需训练数据的幻觉评分机制，推动了检测技术的创新。此外，该数据集还激发了后续研究探索更广泛的幻觉类型和跨领域适应性，为构建更稳健的生成模型评估框架奠定了基础，促进了自然语言处理社区对模型可信度的持续关注。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集