D-HUMOR

github2025-09-11 更新2025-09-12 收录

下载链接：

https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Reasoning

下载链接

链接失效反馈

官方服务：

资源简介：

D-HUMOR是一个包含4,379个Reddit表情包的多模态数据集，专门用于黑色幽默理解研究。数据集标注了黑色幽默内容、目标类别（性别、心理健康、暴力、种族、残疾等）以及三级强度评级（轻度、中度、严重）。该数据集支持三个子任务：黑色幽默识别、目标识别和强度分类

D-HUMOR is a multimodal dataset containing 4,379 Reddit memes, specifically designed for dark humor comprehension research. It is annotated with dark humor content, target categories (including gender, mental health, violence, race, disability, etc.), and three-level intensity ratings (mild, moderate, severe). This dataset supports three subtasks: dark humor recognition, target recognition, and intensity classification.

创建时间：

2025-08-27

原始信息汇总

D-HUMOR 数据集概述

数据集简介

D-HUMOR 是一个专注于暗黑幽默理解的多模态开放推理数据集，包含 4,379 个来自 Reddit 的模因（meme）样本。该数据集旨在促进多模态幽默理解和内容审核的研究。

核心贡献

新颖数据集：提出了一个关于暗黑幽默的新数据集，收集自 Reddit。
角色反转自循环优化：引入一种提示技术，使大型语言模型（LLM）能够像帖子作者一样思考，从而改善 LLM 对齐以生成更好的解释。
三流交叉推理网络（TCRNet）：开发了一个推理增强框架，用于增强对暗黑幽默内容的理解和处理。

子任务

数据集包含三个评估暗黑幽默理解的子任务：

暗黑幽默识别（是/否）：二分类任务，判断帖子是否包含暗黑幽默。
目标识别：六分类任务，识别帖子中针对的目标类别：
- 性别/性相关话题
- 心理健康
- 残疾
- 种族/民族
- 暴力/死亡
- 其他（不属于以上类别的帖子）
强度分类：幽默强度级别：轻度（1）、中度（2）、重度（3）。

数据集访问

由于暗黑幽默内容的敏感性，D-Humor 数据集仅在严格条件下共享：

访问仅限学术和研究目的（非商业用途）。
数据集不得公开重新分发或上传至第三方平台。
用户必须确保数据的道德处理和保密性。

数据集源自 Reddit 上公开可用的模因。请求或使用该数据集即表示同意：

遵守 Reddit 的内容和 API 政策。
尊重道德研究指南，包括非商业使用和不重新分发。
负责任地使用数据集，理解其敏感性和潜在冒犯性。

访问请求

访问仅在完成 D-Humor 数据集访问协议表格后授予，以确保责任和正确使用：

协议表格（PDF）：https://drive.google.com/file/d/1rWRuUamn21nNbOUP7703GAFXr8KbjH-Y/view?usp=sharing
请求表格：https://forms.gle/t9ynkpq4XGd8Kp93A

批准后，用户将收到数据集及使用说明。

搜集汇总

数据集介绍

构建方式

在多媒体幽默理解领域，D-HUMOR数据集的构建采用了系统化的方法。该数据集从Reddit平台收集了4,379个模因，并通过人工标注对每个样本进行了多维度注释，包括是否包含黑色幽默、目标类别（如性别、心理健康、暴力等六类）以及幽默强度等级（轻度、中度、重度）。这一构建过程确保了数据的多样性和代表性，为研究提供了坚实的基础。

特点

D-HUMOR数据集的特点在于其多模态和细粒度注释。它不仅包含图像和文本信息，还提供了丰富的语义标签，涵盖黑色幽默的检测、目标识别和强度分类三个子任务。数据集的敏感性和文化语境依赖性使其在内容审核和幽默理解研究中具有独特价值，同时通过严格的访问控制保障了伦理使用的合规性。

使用方法

使用D-HUMOR数据集时，研究者需首先提交访问申请并签署伦理协议，以确保学术和非商业用途。数据集支持多任务学习，可应用于黑色幽默检测、目标分类和强度预测。通过整合视觉、文本和推理特征，例如采用Tri-stream Cross-Reasoning Network（TCRNet）框架，能够实现高效的多模态融合与分类。

背景与挑战

背景概述

随着社交媒体中多模态内容的爆炸式增长，暗黑幽默作为一种依赖文化语境和敏感话题的复杂表达形式，对人工智能的理解能力提出了严峻挑战。D-HUMOR数据集由研究团队于2025年构建，旨在填补多模态暗黑幽默检测领域的资源空白。该数据集收录了4,379个来自Reddit平台的模因，并标注了幽默类型、目标类别与强度等级，为情感计算与内容审核研究提供了重要支撑。其创新性地融合了视觉语言模型与推理增强框架，推动了多模态语义理解领域的发展。

当前挑战

暗黑幽默检测需克服文化语境隐含性、敏感话题边界模糊性以及多模态信号对齐复杂性三大核心挑战。在构建过程中，研究团队面临标注一致性问题，因暗黑幽默的主观性导致标注者间一致性难以保证；同时需处理伦理约束，确保敏感内容在学术使用中的合规性；此外，模型需协调文本、图像与推理信息的三流融合，这对跨模态表示学习提出了更高要求。

常用场景

经典使用场景

在多媒体内容理解领域，D-HUMOR数据集为暗黑幽默检测提供了标准化评估基准。研究者通常利用其多模态特性，同时分析图像与文本的语义关联，通过Tri-stream Cross-Reasoning Network等架构实现幽默意图的深层识别。该场景常见于计算语言学与人工智能交叉研究，尤其在处理文化语境敏感的网络模因时展现独特价值。

衍生相关工作

基于D-HUMOR衍生的经典工作包括多模态因果推理框架MCR-Net、文化语境感知的幽默生成模型HumorGen，以及针对边缘群体保护的伦理AI研究。这些工作扩展了数据集的初始设计，在跨文化幽默理解、心理健康影响评估等领域形成了新的研究方向。

数据集最近研究