Humicroedit

Name: Humicroedit
Creator: 罗切斯特大学计算机科学系
Published: 2019-06-02 03:17:03
License: 暂无描述

arXiv2019-06-02 更新2024-07-25 收录

下载链接：

https://www.cs.rochester.edu/u/nhossain/humicroedit.html

下载链接

链接失效反馈

官方服务：

资源简介：

Humicroedit数据集是由罗切斯特大学计算机科学系和微软研究AI共同创建，旨在研究计算幽默。该数据集包含15,095条经过编辑的新闻标题，这些标题通过简单的替换编辑变得幽默。数据集内容丰富，每条标题都配有五个幽默评分，来源于精心筛选的编辑和评委。创建过程中，研究人员从Reddit收集新闻标题，并通过Amazon Mechanical Turk平台招募专家进行编辑和评分。该数据集适用于多种幽默研究任务，如幽默生成和个性化幽默推荐，旨在解决计算幽默领域的挑战，如幽默检测和生成。

The Humicroedit Dataset was co-created by the Department of Computer Science at the University of Rochester and Microsoft Research AI, with the goal of advancing computational humor research. It comprises 15,095 edited news headlines that have been rendered humorous through simple substitution edits. The dataset is comprehensive in scope, with each headline paired with five humor scores sourced from carefully vetted editors and judges. During the dataset development process, researchers collected news headlines from Reddit, and recruited experts via the Amazon Mechanical Turk platform to perform headline editing and scoring tasks. This dataset is applicable to a variety of humor-related research tasks, such as humor generation and personalized humor recommendation, and aims to address key challenges in the field of computational humor, including humor detection and humor generation.

提供机构：

罗切斯特大学计算机科学系

创建时间：

2019-06-02

搜集汇总

数据集介绍

构建方式

在计算幽默研究领域，构建高质量数据集是推动算法理解幽默机制的关键。Humicroedit数据集的构建采用了系统化的众包标注流程，首先从Reddit平台采集2017年至2018年间英语新闻标题，筛选出长度在4至20词之间的头条，并基于命名实体识别与词性标注确定可替换的实体、名词或动词。随后通过亚马逊众包平台严格筛选具备幽默识别与编辑能力的标注者，要求编辑者对原始标题进行仅限单个词语替换的微编辑以生成幽默版本，并由五名独立评委对每个编辑后标题的幽默程度进行0-3分的量化评分。最终数据集包含15,095条经过评分的幽默编辑标题，每条数据均记录了原始标题、替换词语及多位评委的幽默评分，形成了结构化的幽默分析语料。

特点

该数据集的核心特征在于其聚焦于通过最小化文本修改诱发幽默的机制，即仅允许单个词语替换的微编辑策略，这为深入分析幽默产生的临界点提供了精确的实验条件。数据集中标题来源于真实新闻语境，涵盖政治、社会等多领域话题，确保了幽默表达的多样性与现实相关性。每条数据附带多位评委的细粒度幽默评分，不仅提供了连续的幽默强度度量，还支持对评委间一致性的量化分析。此外，数据集通过严格的标注者筛选与质量控制流程，包括对编辑者避免低俗幽默的约束以及对评委客观评分准则的规范，保障了数据的可靠性与学术适用性。这些特征使得该数据集能够支持对幽默理论如不一致性、优越感及铺垫-笑点结构的实证检验。

使用方法

该数据集主要应用于计算幽默领域的多类研究任务。研究者可利用其进行幽默检测模型的训练与评估，例如通过双向LSTM等神经网络模型，基于编辑后标题的文本序列预测其幽默类别或评分。数据集支持幽默生成任务的探索，通过分析高频替换词语的语义聚类与幽默策略，为自动生成幽默标题提供模板与启发。在理论分析层面，研究者可结合词向量距离计算、位置分布统计等方法，定量验证幽默长度、不一致性、铺垫-笑点等经典理论在新闻标题语境下的表现。此外，数据集还可用于个性化幽默推荐系统的开发，通过分析评委评分差异探究幽默感知的主观性因素。使用时应注重结合原始与编辑后标题的对比信息，并考虑预训练词向量在表征新闻实体时的时效性局限。

背景与挑战

背景概述

在计算幽默研究领域，数据资源的稀缺长期制约着相关模型的进展。为应对这一挑战，罗彻斯特大学与微软研究院的研究团队于2019年共同构建了Humicroedit数据集，旨在通过微观编辑探索幽默生成的机制。该数据集聚焦于新闻标题的幽默化改写，核心研究问题在于解析单词语义替换如何引发幽默效果，并验证经典幽默理论如不一致性、优越感及铺垫-笑点结构在自然语言中的体现。通过精心设计的数据采集与标注流程，Humicroedit为计算语言学提供了首个大规模、细粒度评分的幽默编辑语料，显著推动了幽默检测与生成任务的实证研究。

当前挑战

Humicroedit数据集所针对的幽默识别与生成任务，面临多重深层挑战。在领域问题层面，幽默感知高度依赖世界知识、常识推理与文化背景，模型需超越表层模式匹配，实现深层次语义理解与情境解构。构建过程中的挑战则体现在标注质量控制上：尽管通过严格筛选标注者，个人偏好、政治立场及认知差异仍导致评分一致性波动（Krippendorff's α仅为0.20）；同时，编辑者易陷入重复的幽默策略，使得数据多样性受限，而涉及负面主题或专业内容的标题亦难以引发普遍幽默共鸣。这些因素共同凸显了构建可靠幽默数据集的复杂性与微妙性。

常用场景

经典使用场景

在计算幽默研究领域，Humicroedit数据集为幽默检测与生成任务提供了基准测试平台。该数据集通过微编辑技术将严肃新闻标题转化为幽默版本，其经典应用场景在于训练和评估幽默识别模型。研究者利用该数据集构建分类器，预测经过单词语义替换后的标题是否具有幽默效果，这为理解幽默产生的语言学机制提供了可量化的实验基础。

衍生相关工作

基于Humicroedit数据集衍生的经典研究包括幽默检测模型的比较分析、语义嵌入与幽默关联性的深入探索，以及跨语言幽默生成机制的对比研究。该数据集启发了后续关于多模态幽默理解的工作，促进了将文本幽默分析与视觉、音频信息相结合的研究方向。同时，其微编辑范式也被应用于其他文本风格转换任务，形成了可解释性文本生成研究的重要分支。

数据集最近研究