Humorous Jokes|幽默识别数据集|社会文化影响数据集

github2023-11-14 更新2024-05-31 收录

幽默识别

社会文化影响

下载链接：

https://github.com/CrowdTruth/Short-Text-Corpus-For-Humor-Detection

下载链接

链接失效反馈

资源简介：

该数据集包含在收集过程中获取的所有幽默笑话，可用作幽默识别任务的正面样本。在去重过程中，Jaccard相似系数大于或等于0.9的笑话已被移除。此数据集用于编译数据集1.1和1.2。第一个数据集仅包含此数据集中短于140个字符的笑话，而后者包含超过140个字母的笑话。注意：部分笑话可能具有种族歧视、恐同或其他侮辱性。

This dataset encompasses all humorous jokes collected during the acquisition process, serving as positive samples for humor recognition tasks. During the deduplication phase, jokes with a Jaccard similarity coefficient greater than or equal to 0.9 have been removed. This dataset is utilized to compile datasets 1.1 and 1.2. The first dataset exclusively includes jokes from this collection that are shorter than 140 characters, whereas the latter comprises jokes exceeding 140 characters. Note: Some jokes may contain racial slurs, homophobic content, or other offensive material.

创建时间：

2016-05-10

原始信息汇总

数据集概述

1. 幽默笑话数据集

1.1 幽默笑话

文件名: humorous_jokes
文件类型: .pickle
大小: 11743项
来源: Twitter.com, www.textfiles.com/humor/, http://www.funnyshortjokes.com/, http://www.laughfactory.com/jokes, http://goodriddlesnow.com/jokes/, http://onelinefun.com 及其它小贡献者
简述: 包含所有收集的幽默笑话，可用作幽默识别任务的正样本。通过Deduplication.py脚本，移除了Jaccard相似度系数大于等于0.9的重复笑话。此数据集用于编译1.1和1.2子集。

1.2 单行笑话

文件名: short_oneliners
文件类型: .pickle
大小: 10076项

1.3 较长笑话

文件名: longer_jokes
文件类型: .pickle
大小: 1667项

2. 路透社头条

文件名: reuters
文件类型: .pickle
大小: 10142项
来源: Twitter
简述: 包含国际新闻机构路透社发布的推特头条。排除了转发以确保源头的明确。数据收集自多个路透社推特账号，时间范围为2016年7月18日至8月5日。通过Deduplication.py脚本，移除了Jaccard相似度系数大于等于0.9的重复头条。

3. 英语谚语

文件名: proverbs
文件类型: .pickle
大小: 1019项
来源: http://www.citehr.com/32222-1000-english-proverbs-sayings-love-blind.html, http://www.english-for-students.com/Proverbs.html
简述: 包含大量现有英语谚语。通过Deduplication.py脚本，移除了重复谚语。

4. 维基百科句子

文件名: short_wiki_sentences
文件类型: .pickle
大小: 10076项
来源: http://www.cs.pomona.edu/~dkauchak/simplification/
简述: 包含从源文件随机选择的维基百科句子，长度不超过或等于140个字符。使用wiki_sentence_selector.py进行随机选择。

AI搜集汇总

数据集介绍

构建方式

Humorous Jokes数据集的构建过程涉及从多个在线资源中收集幽默笑话，包括Twitter、文本文件网站以及多个笑话分享平台。为确保数据的独特性和质量，采用了Jaccard相似系数进行去重处理，相似度高于或等于0.9的笑话被移除。数据集进一步分为两类：一类是字符数少于140的短笑话，另一类是字符数超过140的长笑话。

特点

该数据集的特点在于其专注于幽默检测，包含了11743条幽默笑话，分为短笑话和长笑话两类。数据集来源广泛，涵盖了多种风格和主题的笑话，尽管部分内容可能包含敏感或冒犯性语言。此外，数据集通过严格的去重处理确保了内容的独特性，适用于训练和测试幽默识别算法。

使用方法

Humorous Jokes数据集主要用于幽默检测任务，可作为正样本用于训练机器学习模型。用户可以通过加载.pickle文件直接访问数据集中的笑话内容。此外，数据集附带的Python脚本如Deduplication.py和separate_by_sent_length.py，可用于进一步的数据处理和分类，帮助用户根据需求调整数据集的结构和内容。

背景与挑战

背景概述

Humorous Jokes数据集创建于2016年，旨在为幽默识别研究提供高质量的短文本语料库。该数据集由多个来源的幽默笑话、新闻标题、英语谚语和维基百科句子组成，主要研究人员通过Twitter、幽默网站和其他在线资源收集数据，并进行了去重处理。数据集的核心研究问题在于如何通过机器学习模型识别和理解幽默文本，尤其是短文本中的幽默元素。该数据集在自然语言处理领域，尤其是幽默检测和短文本分析方面，具有重要的影响力，为相关研究提供了丰富的实验数据。

当前挑战

Humorous Jokes数据集在构建和应用过程中面临多重挑战。首先，幽默识别本身是一个复杂的自然语言处理任务，因为幽默往往依赖于文化背景、语言双关和上下文信息，这使得模型难以准确捕捉幽默的语义。其次，数据集的构建过程中，研究人员需要从多个异构来源收集数据，并进行去重和清洗，以确保数据质量。此外，部分笑话内容可能涉及种族主义、性别歧视等敏感话题，这对数据集的伦理审查和后续应用提出了更高的要求。最后，短文本的稀疏性和信息量有限，进一步增加了模型训练的难度。

常用场景

经典使用场景

在自然语言处理领域，幽默检测是一个具有挑战性的任务，尤其是在短文本中识别幽默元素。Humorous Jokes数据集通过收集大量幽默笑话，为研究者提供了一个丰富的资源库，用于训练和测试幽默识别模型。这些笑话来源于多个知名网站，确保了数据的多样性和代表性。

实际应用

在实际应用中，Humorous Jokes数据集可以用于开发智能聊天机器人、社交媒体内容审核系统以及个性化推荐系统。例如，聊天机器人可以通过识别用户的幽默表达，生成更具互动性和趣味性的回复，从而提升用户体验。此外，该数据集还可用于社交媒体平台的内容过滤，帮助识别和屏蔽不当言论。

衍生相关工作

基于Humorous Jokes数据集，许多经典研究工作得以展开。例如，研究者利用该数据集开发了基于深度学习的幽默识别模型，显著提升了短文本幽默检测的性能。此外，该数据集还被用于跨语言幽默识别的研究，探索不同文化背景下幽默表达的差异。这些研究不仅推动了自然语言处理领域的发展，也为相关应用提供了理论支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

Cifar-100

Cifar-100数据集包含100个类别的60000张32x32彩色图像，每个类别有600张图像。这些类别被分为20个超类，每个超类包含5个子类。数据集分为50000张训练图像和10000张测试图像。

www.cs.toronto.edu 收录

ImageNet-1K(ILSVRC2012)

ImageNet-1K(ILSVRC2012)是一个大规模的图像分类数据集，包含1000个类别的图像，用于训练和验证图像分类模型。

github 收录

NASA Battery Dataset

用于预测电池健康状态的数据集，由NASA提供。

github 收录