truthdeception-deceiver-prompts_12_turns

Hugging Face2025-04-04 更新2025-04-07 收录

下载链接：

https://huggingface.co/datasets/saintlyk1d/truthdeception-deceiver-prompts_12_turns

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了一个prompt字段和两个与之相关的fact字段（fact1_text和fact2_text），并提供了这两个fact的正确性标记（fact1_is_correct和fact2_is_correct）。此外，数据集还包含了fact_set_id、ordering、category和topic等字段。整个数据集被划分为训练集，共有260个示例。

创建时间：

2025-04-04

搜集汇总

数据集介绍

构建方式

在认知科学与自然语言处理交叉领域，truthdeception-deceiver-prompts_12_turns数据集通过精心设计的实验范式构建。研究者采用双事实对比框架，每个样本包含两个相互验证的命题（fact1_text/fact2_text）及其真值标签（fact1_is_correct/fact2_is_correct），通过fact_set_id实现命题簇的逻辑关联。数据采集过程严格控制变量，ordering字段记录命题呈现顺序，category与topic字段则构建了多层次的主题分类体系，最终形成包含260组对话轮次的训练集。

特点

该数据集最显著的特征在于其动态博弈情境的模拟能力，每个prompt字段构成12轮对话的完整上下文。命题对设计体现了真伪信息的对抗性，fact_is_correct标注为识别语言欺骗模式提供了监督信号。结构化存储方式使得fact_set_id能够追溯同源命题的不同变体，而ordering与category的嵌套结构则为研究话题演化与认知偏差提供了多维分析视角。数据分布方面，165KB的紧凑体积确保了实验效率与深度学习的平衡。

使用方法

使用本数据集时，建议优先关注prompt与fact_text的上下文关联建模，通过fact_is_correct标签可训练真值识别分类器。fact_set_id支持跨样本对比学习，适用于研究信息一致性检测任务。对于多轮对话研究，可利用ordering字段重建对话时序逻辑，而category和topic的双层分类体系则便于进行领域适应性测试。训练阶段应注意260个样本的小规模特性，宜采用交叉验证或迁移学习策略以提升模型泛化能力。

背景与挑战

背景概述

truthdeception-deceiver-prompts_12_turns数据集聚焦于自然语言处理领域中的真实性与欺骗性文本识别研究。该数据集由匿名研究团队构建，旨在探究多轮对话场景下事实核查与欺骗检测的复杂机制。其核心设计围绕成对呈现的事实陈述（fact1_text与fact2_text）及其真实性标签（fact1_is_correct与fact2_is_correct），通过12轮对话结构揭示语言模型在真伪辨识中的行为模式。数据集涵盖多类别（category）与多主题（topic）的文本样本，为研究对话系统的认知可信度提供了细粒度分析基础。

当前挑战

该数据集面临双重挑战：在领域问题层面，多轮对话中真伪信息的动态交织特性导致传统单轮检测方法失效，要求模型具备长期依赖关系建模与上下文矛盾检测能力；在构建过程中，事实陈述对的平衡性设计需要确保语义复杂度相当而真伪属性对立，同时维持话题分布多样性以避免偏见。标注过程中，事实核查的黄金标准建立涉及跨领域专家验证，尤其对于主观性较强的话题类别，真实性的二元划分本身即构成方法论挑战。

常用场景

经典使用场景

在自然语言处理领域，truthdeception-deceiver-prompts_12_turns数据集为研究文本真实性验证提供了重要资源。该数据集通过精心设计的12轮对话结构，模拟了真实场景中信息交互的复杂性，特别适用于训练和评估模型在多层次对话中识别虚假信息的能力。研究者可以基于该数据集开发先进的对话系统，提升模型在开放域对话中对事实性内容的判断精度。

衍生相关工作

围绕该数据集已产生多项重要研究成果，包括基于注意力机制的多轮对话真实性检测模型、结合知识图谱的对话事实核查框架等。这些工作扩展了数据集的应用维度，在ACL、EMNLP等顶级会议上发表了系列论文，形成了对话系统可信度研究的子领域。

数据集最近研究