deception_detection

Hugging Face2025-07-21 更新2025-07-22 收录

下载链接：

https://huggingface.co/datasets/ashourzadeh7/deception_detection

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了id、文本内容(text)、标签(label)、对话(conversation，包括对话内容和角色)、聊天模板(chat_template)等字段。数据集分为训练集、验证集和测试集三个部分，分别用于模型的训练、验证和测试。训练集包含1279个示例，大小为4969302字节；验证集包含159个示例，大小为647900字节；测试集包含161个示例，大小为616914字节。整个数据集的下载大小为2520576字节，总大小为6234116字节。

创建时间：

2025-07-21

原始信息汇总

数据集概述

基本信息

数据集名称: deception_detection
存储位置: https://huggingface.co/datasets/ashourzadeh7/deception_detection
原始数据集链接: https://huggingface.co/datasets/Dipto084/deception_detection

数据集结构

特征

id: 字符串类型，唯一标识符
text: 字符串类型，文本内容
label: 字符串类型，标签
conversation: 列表类型，包含以下字段：
- content: 字符串类型，对话内容
- role: 字符串类型，角色
chat_template: 字符串类型，聊天模板

数据划分

训练集 (train):
- 样本数量: 1279
- 数据大小: 4969302 字节
验证集 (validation):
- 样本数量: 159
- 数据大小: 647900 字节
测试集 (test):
- 样本数量: 161
- 数据大小: 616914 字节

下载信息

下载大小: 2520576 字节
数据集总大小: 6234116 字节

搜集汇总

数据集介绍

构建方式

在虚假信息检测研究领域，deception_detection数据集的构建采用了多轮对话标注范式。该数据集通过结构化记录每个对话实例的id、文本内容、标签、对话序列及聊天模板等特征维度，其中对话序列精确标注了发言角色与内容。原始数据经过专业的分割处理，形成包含1279个训练样本、159个验证样本和161个测试样本的标准划分，总数据量达6234116字节，确保了数据分布的合理性与评估的可靠性。

特点

该数据集最显著的特征在于其多层次的信息标注体系，不仅包含传统的文本与二分类标签，还完整保留了对话的时序结构与参与者角色信息。独特的chat_template字段为研究对话系统的响应生成提供了标准化模板，而细粒度的对话记录使得分析虚假信息在交互过程中的传播模式成为可能。数据分割严格遵循机器学习标准，三个子集的样本量比例约为8:1:1，符合模型开发与验证的最佳实践要求。

使用方法

研究者可通过HuggingFace平台直接加载该数据集，其标准化的特征结构兼容主流自然语言处理框架。典型应用场景包括：使用text和label字段进行端到端的虚假文本分类训练，利用conversation字段开展对话行为分析，或基于chat_template开发对话生成模型。数据已预分割为train/validation/test子集，建议采用交叉验证策略评估模型在对话语境下的泛化能力，特别注意角色标注信息在社交工程检测中的潜在价值。

背景与挑战

背景概述

deception_detection数据集聚焦于谎言检测这一前沿研究领域，旨在通过自然语言处理技术识别文本中的欺骗性内容。该数据集由Dipto084团队构建并发布，收录了包含对话文本及对应标签的丰富样本，为研究者在心理学、计算机科学及安全领域的交叉研究提供了重要资源。其多轮对话结构和细粒度标注体系，显著提升了模型对复杂社交互动中隐含欺骗信号的捕捉能力，推动了可信计算和人机交互技术的发展。

当前挑战

该数据集面临的核心挑战体现在两个维度：在应用层面，自然语言的高度语境依赖性导致欺骗信号与正常表达的界限模糊，模型需克服语义歧义和情感干扰；在构建层面，对话数据的隐私敏感性限制了样本采集规模，而人工标注过程中欺骗意图的主观判断差异，进一步增加了标注一致性的维护难度。多轮对话的时序依赖特性，也对数据结构的标准化处理提出了更高要求。

常用场景

经典使用场景

在自然语言处理领域，deception_detection数据集被广泛用于训练和评估文本欺骗检测模型。该数据集通过包含真实和欺骗性文本对话，为研究者提供了一个标准化的基准测试平台。经典使用场景包括对话系统的安全性增强、虚假信息识别以及在线社交平台的信任机制构建。

解决学术问题

该数据集有效解决了文本欺骗检测领域的数据稀缺问题，为研究者提供了高质量的标注数据。通过分析对话中的语言模式和情感特征，研究者能够深入探索欺骗性文本的识别方法。这不仅推动了自然语言处理技术的发展，也为心理学和社会学领域的欺骗行为研究提供了新的视角。

衍生相关工作

基于deception_detection数据集，研究者们开发了多种先进的欺骗检测模型，包括基于深度学习的文本分类器和注意力机制增强的对话分析系统。这些衍生工作不仅提升了欺骗检测的准确率，还推动了多模态欺骗检测技术的发展，为后续研究奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集