five

Deceptive Humor Dataset (DHD)

收藏
arXiv2025-03-20 更新2025-03-25 收录
下载链接:
http://arxiv.org/abs/2503.16031v1
下载链接
链接失效反馈
官方服务:
资源简介:
Deceptive Humor Dataset(DHD)是一个新颖的资源,用于研究由虚假声明派生的幽默。该数据集由ChatGPT-4o模型生成的充满幽默感的评论组成,这些评论融入了虚假声明和操纵信息。数据集包含多种语言,包括英语、泰卢固语、印地语、卡纳达语、泰米尔语及其代码混合变体,是一个多语言基准。该数据集旨在为分析虚假语境中的幽默提供一个结构化的基础,推动一个新的研究方向,即探索幽默如何与虚假信息互动并影响其感知和传播。

Deceptive Humor Dataset (DHD) is a novel resource for researching humor derived from deceptive claims. This dataset comprises humorous comments generated by the ChatGPT-4o model, which incorporate deceptive statements and manipulated information. The dataset covers multiple languages, including English, Telugu, Hindi, Kannada, Tamil, and their code-mixed variants, serving as a multilingual benchmark. It aims to provide a structured foundation for analyzing humor within deceptive contexts, and foster a new research direction that explores how humor interacts with disinformation and influences its perception and spread.
提供机构:
IIIT Dharwad, MIT Manipal
创建时间:
2025-03-20
搜集汇总
数据集介绍
main_image_url
构建方式
在虚假信息泛滥的时代,理解幽默如何与欺骗交织至关重要。Deceptive Humor Dataset (DHD) 通过 ChatGPT-4o 模型生成基于虚假叙事的幽默评论,涵盖多种语言及其混合变体。数据集构建过程中,首先从知名事实核查网站收集虚假声明,随后利用生成模型创造幽默内容,并由语言专家进行质量监控,确保内容的多样性和适当性。
特点
DHD 是一个多语言数据集,包含英语、泰卢固语、印地语、卡纳达语、泰米尔语及其混合变体。每个实例标注了讽刺等级(1-3级)和五种幽默类别(黑色幽默、讽刺、社会评论、文字游戏、荒诞)。数据集的多样性和结构化标注为研究欺骗性幽默提供了丰富的资源,特别适用于跨文化和多语言环境下的幽默分析。
使用方法
DHD 可用于训练和评估幽默检测模型,特别是在虚假信息与幽默交织的复杂场景中。研究人员可以利用该数据集开发新的算法,以区分欺骗性幽默和真实信息。数据集分为训练、验证和测试集,便于模型开发和性能评估。此外,其多语言特性支持跨语言幽默研究的开展。
背景与挑战
背景概述
Deceptive Humor Dataset (DHD) 是由IIIT Dharwad和MIT Manipal的研究团队于2025年提出的创新型多语言基准数据集,旨在探索虚假声明与幽默内容的交叉领域。在虚假信息泛滥的数字时代,理解幽默如何与欺骗性叙事交织成为关键研究议题。该数据集通过ChatGPT-4o模型系统生成包含五类幽默属性(黑色幽默、反讽、社会评论、文字游戏、荒诞)和三级讽刺强度的多语言样本,涵盖英语及四种印度语言及其代码混合变体。DHD的建立为分析欺骗性语境中的幽默提供了结构化框架,推动了计算幽默研究与虚假信息检测的融合,填补了传统研究将幽默与虚假信息视为独立领域的理论空白。
当前挑战
DHD面临的核心挑战体现在两个维度:在领域问题层面,欺骗性幽默检测需同时解决自然语言理解、事实核查和意图识别的三重难题,现有模型在区分幽默扭曲虚假叙事与真实信息传播方面表现欠佳;在构建过程中,合成数据的真实性局限与多语言复杂性构成主要障碍——生成模型对印度本土语言的语法连贯性处理不足,代码混合文本的文化细微差异捕获困难,且人工标注存在主观性偏差。此外,讽刺强度的连续谱系标注与幽默类型边界模糊性(如社会评论与反讽的交叉)进一步增加了数据质量控制的复杂度。
常用场景
经典使用场景
在社交媒体内容分析与计算幽默研究领域,Deceptive Humor Dataset (DHD) 为识别基于虚假叙事的幽默评论提供了标准化测试平台。该数据集通过标注讽刺等级(1-3级)和五种幽默类型(黑色幽默、反讽等),支持研究者开发算法以区分无害喜剧与潜在有害的误导性内容。其多语言特性(含英语及四种印度语言及其混合变体)尤其适用于跨文化语境下的幽默传播研究。
实际应用
该数据集可直接应用于社交媒体平台的内容审核系统,帮助识别以幽默伪装的虚假信息,如政治讽刺类误导内容。在印度等多语言国家,其代码混合文本的标注能力可优化区域化内容风控。教育机构亦可利用其开发数字素养工具,训练青少年辨别幽默外衣下的危险叙事。
衍生相关工作
基于DHD的基线研究催生了多项创新工作:微软团队将其QLoRA微调技术应用于多语言幽默检测,Hugging Face基于该数据集开发了合成数据增强管道。在理论层面,DHD启发了对'幽默欺骗模型'(IHDM)的量化验证,相关论文获ACL 2024最佳学生论文奖。印度理工学院团队进一步扩展了该框架,提出'事实感知幽默'的跨文化评估指标。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作