DEFABEL

Name: DEFABEL
Creator: 斯图加特大学计算语言学研究所, 德国; 班贝格大学自然语言处理基础, 德国; 特里尔莱布尼茨心理学研究所, 德国
Published: 2025-05-19 22:12:05
License: 暂无描述

arXiv2025-05-19 更新2024-06-21 收录

下载链接：

https://www.ims.uni-stuttgart.de/data/defabel

下载链接

链接失效反馈

官方服务：

资源简介：

DEFABEL是一个基于信念的欺骗数据集，旨在研究欺骗意图与事实准确性之间的区别。该数据集由三个语料库组成，包括德语和英语版本的欺骗和非欺骗性论点。数据集的创建是为了评估欺骗检测的可靠性，并挑战当前对欺骗检测的假设。数据集通过让参与者就给定陈述进行论证，并报告他们的真实信念，来操作化欺骗意图。DEFABEL旨在解决欺骗检测中欺骗意图和事实准确性混淆的问题，并提供了跨语言比较欺骗现象的基础。

DEFABEL is a belief-based deception dataset designed to investigate the distinction between deceptive intent and factual accuracy. This dataset comprises three corpora, containing German and English versions of both deceptive and non-deceptive arguments. The dataset was developed to evaluate the reliability of deception detection and challenge prevailing assumptions about deception detection. Deceptive intent is operationalized in the dataset by having participants argue for given statements and report their true beliefs. DEFABEL aims to address the issue of confounding deceptive intent and factual accuracy in deception detection, and provides a foundation for cross-linguistic comparisons of deceptive phenomena.

提供机构：

斯图加特大学计算语言学研究所, 德国; 班贝格大学自然语言处理基础, 德国; 特里尔莱布尼茨心理学研究所, 德国

创建时间：

2025-05-19

搜集汇总

数据集介绍

构建方式

DEFABEL数据集的构建基于信念欺骗框架，该框架将欺骗定义为作者的主张与其真实信念之间的不一致，而不考虑事实准确性。数据集包括三个子集：DEFABEL_V1_DE（德语语料库）、DEFABEL_V2_DE（考虑信念变化的德语语料库）和DEFABEL_V2_EN（多语言英语语料库）。数据收集通过在线调查平台（如Prolific和Clickworker）进行，参与者被要求撰写支持特定陈述的论据，并在任务后报告其真实信念。通过这种方式，欺骗标签被操作化为参与者自我报告的信念与其书面论据之间的不一致。

特点

DEFABEL数据集的特点在于其专注于信念欺骗，而非事实准确性。数据集包含德语和英语的论据文本，每个文本都标注了欺骗或非欺骗标签。DEFABEL_V1_DE假设参与者的信念在任务过程中保持稳定，而DEFABEL_V2_DE通过任务前后两次信念报告来捕捉可能的信念变化。DEFABEL_V2_EN则扩展了这一设计，支持跨语言比较。数据集中的文本长度和结构多样，平均句子数和词数在不同子集中有所变化，反映了不同语言和任务设计的影响。

使用方法

DEFABEL数据集可用于研究欺骗检测的局限性，特别是在信念欺骗框架下的语言模式。研究人员可以使用该数据集评估传统机器学习模型、预训练语言模型和指令调优的大型语言模型在欺骗检测任务中的表现。数据集还可用于跨语言和跨数据集的比较分析，以验证欺骗线索的普遍性和数据集特定伪影的影响。具体使用时，建议采用主题不相交的数据分割策略，以确保模型泛化能力。此外，数据集中的辅助标注（如主题熟悉度和论据说服力）可用于进一步分析欺骗表达的上下文因素。

背景与挑战

背景概述

DEFABEL数据集由Aswathy Velutharambath等人于2025年提出，旨在研究基于信念的欺骗检测框架。该数据集包含德语和英语两种语言的语料库，分别收集了参与者在不同条件下撰写的欺骗性和非欺骗性论点。DEFABEL的核心研究问题是通过分离事实准确性和欺骗意图，探讨欺骗是否可以从纯文本中可靠地检测出来。该数据集对自然语言处理领域中的欺骗检测研究产生了重要影响，挑战了传统欺骗检测方法的基本假设。

当前挑战

DEFABEL数据集面临的挑战主要包括两个方面：1) 在领域问题方面，该数据集旨在解决欺骗检测中的核心问题，即如何区分事实准确性和欺骗意图。然而，研究发现传统的语言线索在基于信念的欺骗数据中相关性微弱且统计不显著，这使得欺骗检测变得极具挑战性。2) 在构建过程中，研究人员需要确保参与者的信念报告可靠，并设计实验以控制潜在的信念变化，同时还需要处理多语言数据的收集和标注问题，确保跨语言分析的有效性。

常用场景

解决学术问题

DEFABEL数据集解决了传统欺骗检测研究中混淆事实准确性和欺骗意图的问题。通过引入基于信念的欺骗标注框架，该数据集使研究者能够在不受事实准确性干扰的情况下，专注于分析欺骗意图的语言表现。这对于理解欺骗行为的本质及其在文本中的表现具有重要意义。

衍生相关工作

DEFABEL数据集衍生了一系列关于欺骗检测的重要研究，包括对传统语言欺骗线索的重新评估、基于Transformer模型的欺骗检测方法改进，以及大型语言模型在欺骗检测中的局限性分析。这些工作挑战了欺骗必然伴随特定语言模式的观点，推动了该领域的理论革新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集