SarcasmExplain-5K

github2026-03-03 更新2026-03-07 收录

下载链接：

https://github.com/maliha-usui/sarcasm-explain-5k

下载链接

链接失效反馈

官方服务：

资源简介：

SarcasmExplain-5K是一个包含5,000个Reddit讽刺实例的平衡数据集，标注了五种互补的自然语言解释类型，通过系统的GPT-4流程生成并通过众包人类评估验证。与仅提供二进制标签的现有讽刺数据集不同，该数据集提供了丰富的多视角解释，支持可解释AI、实用语言理解和人机交互研究。

SarcasmExplain-5K is a balanced dataset containing 5,000 Reddit sarcasm instances, annotated with five complementary natural language explanation types generated via a systematic GPT-4 pipeline and validated through crowdsourced human evaluation. Unlike existing sarcasm datasets that only provide binary labels, this dataset offers rich multi-perspective explanations to support research in explainable AI, practical language understanding, and human-computer interaction.

创建时间：

2026-02-17

原始信息汇总

SarcasmExplain-5K 数据集概述

基本信息

数据集名称：SarcasmExplain-5K: Multi-Perspective Sarcasm Explanation Dataset
创建者：Maliha Binte Mamun
创建年份：2025
数据集规模：5,000 个实例
数据平衡：2,500 个讽刺实例，2,500 个非讽刺实例
数据来源：Reddit 对话
生成模型：OpenAI GPT-4
代码许可证：MIT License
数据集许可证：CC BY 4.0

数据集内容与特点

核心特点：为每个讽刺实例提供了五种互补的自然语言解释类型。
解释类型：
1. 认知解释：解释心智为何识别出讽刺——说话者所调用的信念或知识。
2. 基于意图的解释：解释说话者的交际目标——他们在社交或情感上试图实现什么。
3. 对比解释：讽刺与真诚版本的比较——真实的版本会是什么样子。
4. 文本解释：识别表明讽刺的语言特征——措辞、语气、夸张。
5. 基于规则的解释：识别形式语言标记——标点、语域转换、夸张。
数据列：
- label：0 = 非讽刺，1 = 讽刺
- label_name："sarcastic" 或 "non_sarcastic"
- comment：原始 Reddit 评论
- parent_comment：对话上下文
- rephrased_comment：评论的非讽刺释义
- cognitive_explanation：心智推理视角的解释
- intent_based_explanation：说话者交际目标的解释
- contrastive_explanation：讽刺与真诚对比的解释
- textual_explanation：语言分析视角的解释
- rule_based_explanation：识别出的语言标记的解释

数据获取方式

完整数据集：托管在 HuggingFace，采用门控访问。
访问条件：免费，但需贡献少量标注工作以换取访问权限。
获取步骤：
1. 访问 https://maliha-usui.github.io/sarcasm-explain-5k/annotate.html，选择任一开放的认知或基于意图的评估表单进行标注。
2. 为 10 个讽刺解释的清晰度评分（1-5 分），并可选择提出改进建议（约 8 分钟）。
3. 提交后，在标注页面输入您的表单 ID 以获取唯一的完成代码。
4. 访问 https://maliha-usui.github.io/sarcasm-explain-5k/access.html，验证您的代码，然后将其粘贴到 HuggingFace 访问请求表单中。
审批时间：提交后 24-48 小时内批准。
数据预览：提供包含 8 个实例的样本文件 data/sample_data.csv 供免费访问。

人工评估框架

评估重点：认知解释和基于意图的解释。
评估规模：每种解释类型有 50 个评估表单，每个表单包含 10 个实例。
评估任务：
1. 为每个解释的清晰度评分（1-5 李克特量表）。
2. 同意或不同意生成的解释。
3. 如果解释不清楚或不准确，可编写修正（可选）。
评估表单池：
- 认知解释：表单 ID COG001 – COG050，共 50 个表单，500 个实例。
- 基于意图的解释：表单 ID INT001 – INT050，共 50 个表单，500 个实例。
完成代码格式：SE5K-[表单ID]-[哈希值]。

应用领域

可解释人工智能
讽刺检测
语用自然语言处理
认知建模
人机交互

引用格式

bibtex @misc{mamun2025sarcasmexplain, author = {Mamun, Maliha Binte}, title = {SarcasmExplain-5K: A Multi-Perspective Sarcasm Explanation Dataset}, year = {2025}, publisher = {GitHub / HuggingFace}, url = {https://huggingface.co/datasets/maliha/sarcasm-explain-5k}, note = {Independent research. Contact: bintemaliha19@gmail.com} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建高质量的解释性数据集对于推进可解释人工智能至关重要。SarcasmExplain-5K数据集的构建采用了系统化的生成与验证流程。其核心数据来源于Reddit平台的讽刺语料库，确保了语料的真实性与多样性。通过精心设计的GPT-4提示工程，为每个讽刺实例生成了认知、意图、对比、文本和基于规则的五种互补性自然语言解释。为确保数据质量，构建过程还包括了数据平衡处理，最终形成了包含2500个讽刺实例与2500个非讽刺实例的均衡数据集，并通过后续的人工评估框架进行持续验证。

特点

该数据集在讽刺理解研究领域具有鲜明的多维特征。其最突出的特点在于超越了传统的二元标签标注，为每个讽刺实例提供了来自认知、意图、对比、文本和规则五个不同视角的丰富解释，这为深入探究讽刺的认知机制与语言表征提供了结构化资源。数据集规模适中，包含5000个实例，且讽刺与非讽刺样本数量均衡，有助于模型训练的稳定性。此外，数据集附带了原始评论、父级评论以及非讽刺释义版本，提供了完整的上下文信息，极大地增强了数据的实用性与研究深度。

使用方法

对于希望利用该数据集的研究者，其获取与使用遵循一种社区驱动的协作模式。完整数据集托管于HuggingFace平台，采用门控访问机制。用户需通过参与数据集的质量验证工作来换取访问权限，具体流程包括访问指定页面完成对认知或意图类解释的清晰度评分任务，随后获取唯一完成码并提交访问申请。这种模式不仅保障了数据集的可持续维护，也使其能够持续收集人类评估以优化质量。数据集可直接用于训练和评估讽刺检测、可解释性生成以及语用语言理解等模型，其多视角解释为模型提供了丰富的监督信号。

背景与挑战

背景概述

在自然语言处理领域，讽刺检测一直是理解非字面语言和人类语用交流的核心难题。传统数据集多局限于二元标签标注，缺乏对讽刺现象深层机理的阐释。SarcasmExplain-5K数据集由独立研究员Maliha Binte Mamun于2025年创建，旨在填补这一空白。该数据集从Reddit平台收集了5000个平衡的讽刺与非讽刺实例，并创新性地通过GPT-4生成认知、意图、对比、文本和规则五种互补的自然语言解释。这一工作推动了可解释人工智能的发展，为讽刺检测、语用语言理解及人机交互研究提供了丰富的多视角资源，其社区驱动的质量验证模式也体现了开放科学的新趋势。

当前挑战

该数据集致力于解决讽刺检测领域模型可解释性不足的挑战。讽刺作为一种高度依赖语境和共享知识的语用现象，其自动识别不仅需要判断是否存在讽刺，更需理解讽刺背后的认知机制与交际意图。现有模型往往缺乏生成人类可理解解释的能力。在构建过程中，挑战主要集中于多视角解释的生成与验证：如何设计系统化提示工程以确保GPT-4生成高质量、多样化的解释；如何通过众包人力评估框架（如认知与意图类解释的50份评估表）保证解释的清晰度与准确性；以及如何平衡数据集并维护社区贡献访问机制，以实现持续的质量改进与学术共享。

常用场景

经典使用场景

在自然语言处理领域，讽刺检测与解释研究长期面临数据稀缺的挑战。SarcasmExplain-5K数据集以其多视角解释标注，为讽刺理解模型提供了丰富的训练与评估资源。研究者常利用该数据集训练深度神经网络，以学习讽刺语句背后的认知推理与交际意图，从而提升模型对非字面语言的解析能力。其平衡的样本结构确保了模型在正负例上的泛化性能，推动了讽刺检测从二分类任务向可解释性分析的范式转变。

衍生相关工作

围绕该数据集已衍生出多项经典研究工作，主要集中在可解释讽刺检测模型的构建与评估。例如，基于多任务学习框架的模型同时预测讽刺标签并生成认知与意图解释，验证了解释信息对检测性能的增强作用。此外，对比学习被应用于对齐讽刺语句与其非讽刺释义，以捕捉语义反转特征。在语用推理方面，研究者利用该数据集的意图标注，探索了讽刺作为社会行为的情感与交际目标建模，推动了对话系统中意图识别技术的发展。

数据集最近研究