Embedded Lies Dataset
收藏arXiv2025-01-13 更新2025-01-15 收录
下载链接:
https://osf.io/jzrvh/?view_only=0195bd62f6974482b02fbc3c2912dbf4
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Embedded Lies Dataset,由IMT高级研究学院卢卡分校、蒂尔堡大学和伦敦大学学院的研究团队创建,旨在研究嵌入谎言在口头欺骗检测中的应用。数据集包含2088条真实和包含嵌入谎言的陈述,数据来源于1058名英语流利的参与者,通过在线平台Prolific招募。数据集的创建过程采用受试者内设计,参与者首先提供真实的自传体事件描述,然后重写这些陈述以包含嵌入的谎言,并标注谎言的中央性、欺骗性和来源。数据集的应用领域主要集中在自动化谎言检测,特别是针对嵌入谎言的检测,旨在解决真实与谎言混合的复杂欺骗场景中的检测难题。
This dataset, named Embedded Lies Dataset, was developed by a research team from IMT School for Advanced Studies Lucca, Tilburg University, and University College London, with the goal of investigating the application of embedded lies in verbal deception detection. The dataset consists of 2088 statements that are either truthful or contain embedded lies, sourced from 1058 fluent English-speaking participants recruited through the online platform Prolific. The dataset was constructed using a within-subjects experimental design: participants first provided truthful descriptions of autobiographical events, then rewrote these statements to incorporate embedded lies, and annotated the centrality, deceptiveness, and source of the embedded lies. The primary application scope of this dataset centers on automated deception detection, particularly the detection of embedded lies, aiming to address the detection challenges in complex deception scenarios where truthful and deceptive statements are mixed.
提供机构:
IMT高级研究学院卢卡分校,蒂尔堡大学,伦敦大学学院
创建时间:
2025-01-13
搜集汇总
数据集介绍

构建方式
Embedded Lies Dataset的构建采用了被试内设计,参与者首先提供真实的自传体事件描述,随后在相同的背景下改写为包含嵌入谎言的欺骗性描述。数据集包含2088条真实和欺骗性陈述,每条欺骗性陈述中的嵌入谎言由参与者自行标注,并评估其欺骗性、中心性和来源。通过这种方式,数据集捕捉了真实与欺骗性陈述之间的细微差异,为研究嵌入谎言提供了丰富的语料。
特点
该数据集的特点在于其独特的嵌入谎言结构,欺骗性陈述通常包含约2/3的真实信息和1/3的嵌入谎言,这些谎言多来源于个人经验或想象。数据集还提供了详细的元数据,包括参与者的记忆相关变量(如事件的时间、重要性、情感效价等)以及个体差异信息(如说谎态度和人格特质)。这些特点使得该数据集能够支持对嵌入谎言的深入分析,尤其是在语言学和心理学领域。
使用方法
Embedded Lies Dataset可用于多种研究任务,包括欺骗检测模型的训练与评估、嵌入谎言的语言特征分析以及个体差异对欺骗行为的影响研究。研究者可以利用该数据集进行序列分类任务,预测谎言在陈述中的嵌入位置,或进行回归任务,量化陈述中的欺骗程度。此外,数据集还可用于探索不同情境下的欺骗行为,如夸大保险索赔等特定场景。通过结合自然语言处理技术和机器学习模型,该数据集为嵌入谎言的研究提供了强大的工具。
背景与挑战
背景概述
Embedded Lies Dataset 是由Riccardo Loconte和Bennett Kleinberg等研究人员于2023年创建的一个新型数据集,旨在研究嵌入谎言(embedded lies)的自动检测问题。该数据集包含2088条真实和包含嵌入谎言的陈述,通过实验设计收集,参与者首先提供真实的自传体事件描述,随后在相同事件中嵌入谎言并标注。该数据集的创建背景源于传统的谎言检测研究通常将陈述简单划分为真实或欺骗,而忽略了谎言与真实信息在同一陈述中并存的复杂性。Embedded Lies Dataset的发布为研究嵌入谎言提供了新的资源,推动了自然语言处理(NLP)和机器学习(ML)在谎言检测领域的应用。
当前挑战
Embedded Lies Dataset面临的主要挑战包括两个方面:首先,嵌入谎言的检测本身具有极高的复杂性,因为谎言与真实信息混合在一起,使得传统的谎言检测方法难以区分。尽管使用了微调的语言模型(如Llama-3-8B),分类准确率仅为64%,表明嵌入谎言的检测仍然是一个未解决的难题。其次,数据集的构建过程中也面临挑战,例如参与者在标注嵌入谎言时可能存在主观性,导致数据一致性受到影响。此外,数据集虽然涵盖了11种不同的事件类型,但每个事件的样本量有限,可能限制了针对特定事件的深入分析。这些挑战凸显了嵌入谎言检测的复杂性和数据集构建的难度。
常用场景
经典使用场景
Embedded Lies Dataset 主要用于研究语言欺骗检测领域中的嵌入式谎言现象。该数据集通过收集真实和包含嵌入式谎言的陈述,为研究人员提供了一个独特的资源,用于分析谎言与真实信息在同一陈述中的混合情况。经典的使用场景包括训练和评估自然语言处理模型,以区分真实陈述和包含嵌入式谎言的陈述。通过这种分析,研究人员可以更好地理解嵌入式谎言的语言特征及其对欺骗检测的影响。
解决学术问题
该数据集解决了欺骗检测领域中的一个关键问题,即如何检测和识别嵌入式谎言。传统的欺骗检测方法通常假设陈述是完全真实或完全虚假的,而嵌入式谎言则介于两者之间,包含部分真实信息和部分虚假信息。通过提供大量标注的嵌入式谎言数据,该数据集使得研究人员能够开发更精细的欺骗检测模型,提升对嵌入式谎言的识别能力。此外,该数据集还为研究个体差异、语言特征和欺骗策略提供了丰富的数据支持,推动了欺骗检测领域的理论发展。
衍生相关工作
Embedded Lies Dataset 的发布催生了一系列相关研究,尤其是在自然语言处理和机器学习领域。基于该数据集,研究人员开发了多种欺骗检测模型,如基于随机森林的分类器和基于 Transformer 的预训练语言模型(如 Llama-3-8B)。这些模型在区分真实陈述和包含嵌入式谎言的陈述方面取得了显著进展。此外,该数据集还推动了欺骗检测理论的发展,如基于现实监控(Reality Monitoring)和可验证性方法(Verifiability Approach)的研究,进一步深化了对嵌入式谎言的理解。
以上内容由遇见数据集搜集并总结生成



