Deceptive Humor Dataset (DHD)

Name: Deceptive Humor Dataset (DHD)
Creator: IIIT Dharwad, MIT Manipal
Published: 2025-03-20 18:58:02
License: 暂无描述

arXiv2025-03-20 更新2025-03-25 收录

下载链接：

http://arxiv.org/abs/2503.16031v1

下载链接

链接失效反馈

官方服务：

资源简介：

Deceptive Humor Dataset（DHD）是一个新颖的资源，用于研究由虚假声明派生的幽默。该数据集由ChatGPT-4o模型生成的充满幽默感的评论组成，这些评论融入了虚假声明和操纵信息。数据集包含多种语言，包括英语、泰卢固语、印地语、卡纳达语、泰米尔语及其代码混合变体，是一个多语言基准。该数据集旨在为分析虚假语境中的幽默提供一个结构化的基础，推动一个新的研究方向，即探索幽默如何与虚假信息互动并影响其感知和传播。

Deceptive Humor Dataset (DHD) is a novel resource for researching humor derived from deceptive claims. This dataset comprises humorous comments generated by the ChatGPT-4o model, which incorporate deceptive statements and manipulated information. The dataset covers multiple languages, including English, Telugu, Hindi, Kannada, Tamil, and their code-mixed variants, serving as a multilingual benchmark. It aims to provide a structured foundation for analyzing humor within deceptive contexts, and foster a new research direction that explores how humor interacts with disinformation and influences its perception and spread.

提供机构：

IIIT Dharwad, MIT Manipal

创建时间：

2025-03-20

搜集汇总

数据集介绍

构建方式

在虚假信息泛滥的时代，理解幽默如何与欺骗交织至关重要。Deceptive Humor Dataset (DHD) 通过 ChatGPT-4o 模型生成基于虚假叙事的幽默评论，涵盖多种语言及其混合变体。数据集构建过程中，首先从知名事实核查网站收集虚假声明，随后利用生成模型创造幽默内容，并由语言专家进行质量监控，确保内容的多样性和适当性。

特点

DHD 是一个多语言数据集，包含英语、泰卢固语、印地语、卡纳达语、泰米尔语及其混合变体。每个实例标注了讽刺等级（1-3级）和五种幽默类别（黑色幽默、讽刺、社会评论、文字游戏、荒诞）。数据集的多样性和结构化标注为研究欺骗性幽默提供了丰富的资源，特别适用于跨文化和多语言环境下的幽默分析。

使用方法

DHD 可用于训练和评估幽默检测模型，特别是在虚假信息与幽默交织的复杂场景中。研究人员可以利用该数据集开发新的算法，以区分欺骗性幽默和真实信息。数据集分为训练、验证和测试集，便于模型开发和性能评估。此外，其多语言特性支持跨语言幽默研究的开展。

背景与挑战

背景概述

Deceptive Humor Dataset (DHD) 是由IIIT Dharwad和MIT Manipal的研究团队于2025年提出的创新型多语言基准数据集，旨在探索虚假声明与幽默内容的交叉领域。在虚假信息泛滥的数字时代，理解幽默如何与欺骗性叙事交织成为关键研究议题。该数据集通过ChatGPT-4o模型系统生成包含五类幽默属性（黑色幽默、反讽、社会评论、文字游戏、荒诞）和三级讽刺强度的多语言样本，涵盖英语及四种印度语言及其代码混合变体。DHD的建立为分析欺骗性语境中的幽默提供了结构化框架，推动了计算幽默研究与虚假信息检测的融合，填补了传统研究将幽默与虚假信息视为独立领域的理论空白。

当前挑战

DHD面临的核心挑战体现在两个维度：在领域问题层面，欺骗性幽默检测需同时解决自然语言理解、事实核查和意图识别的三重难题，现有模型在区分幽默扭曲虚假叙事与真实信息传播方面表现欠佳；在构建过程中，合成数据的真实性局限与多语言复杂性构成主要障碍——生成模型对印度本土语言的语法连贯性处理不足，代码混合文本的文化细微差异捕获困难，且人工标注存在主观性偏差。此外，讽刺强度的连续谱系标注与幽默类型边界模糊性（如社会评论与反讽的交叉）进一步增加了数据质量控制的复杂度。

常用场景

经典使用场景

在社交媒体内容分析与计算幽默研究领域，Deceptive Humor Dataset (DHD) 为识别基于虚假叙事的幽默评论提供了标准化测试平台。该数据集通过标注讽刺等级（1-3级）和五种幽默类型（黑色幽默、反讽等），支持研究者开发算法以区分无害喜剧与潜在有害的误导性内容。其多语言特性（含英语及四种印度语言及其混合变体）尤其适用于跨文化语境下的幽默传播研究。

实际应用

该数据集可直接应用于社交媒体平台的内容审核系统，帮助识别以幽默伪装的虚假信息，如政治讽刺类误导内容。在印度等多语言国家，其代码混合文本的标注能力可优化区域化内容风控。教育机构亦可利用其开发数字素养工具，训练青少年辨别幽默外衣下的危险叙事。

衍生相关工作

基于DHD的基线研究催生了多项创新工作：微软团队将其QLoRA微调技术应用于多语言幽默检测，Hugging Face基于该数据集开发了合成数据增强管道。在理论层面，DHD启发了对'幽默欺骗模型'(IHDM)的量化验证，相关论文获ACL 2024最佳学生论文奖。印度理工学院团队进一步扩展了该框架，提出'事实感知幽默'的跨文化评估指标。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集