Humorous Jokes
收藏github2024-01-31 更新2024-05-31 收录
下载链接:
https://github.com/elastic/Short-Text-Corpus-For-Humor-Detection
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含在收集过程中获取的所有幽默笑话,可用作幽默识别任务的正面样本。在去重过程中,Jaccard相似度系数大于或等于0.9的笑话已被移除。此数据集用于编译数据集1.1和1.2。第一个数据集仅包含此数据集中短于140个字符的笑话,而后者包含超过140个字母的笑话。注意:部分笑话可能具有种族歧视、恐同或其他侮辱性。
This dataset encompasses all humorous jokes acquired during the collection process, serving as positive samples for humor recognition tasks. During the deduplication phase, jokes with a Jaccard similarity coefficient greater than or equal to 0.9 have been removed. This dataset is utilized to compile datasets 1.1 and 1.2. The first dataset exclusively includes jokes from this collection that are shorter than 140 characters, whereas the latter comprises jokes exceeding 140 characters. Note: Some jokes may contain racial discrimination, homophobia, or other offensive content.
创建时间:
2017-12-04
原始信息汇总
数据集概述
1. 幽默笑话数据集
- 文件名: humorous_jokes
- 文件类型: .pickle
- 大小: 11743项
- 来源: Twitter.com, www.textfiles.com/humor/, http://www.funnyshortjokes.com/, http://www.laughfactory.com/jokes, http://goodriddlesnow.com/jokes/, http://onelinefun.com 等
- 简述: 包含用于幽默识别任务的正面样本。通过Deduplication.py进行去重,移除了Jaccard相似系数大于等于0.9的笑话。
1.1. 短笑话数据集
- 文件名: short_oneliners
- 文件类型: .pickle
- 大小: 10076项
- 简述: 包含humorous_jokes中长度小于140个字符的笑话。
1.2. 长笑话数据集
- 文件名: longer_jokes
- 文件类型: .pickle
- 大小: 1667项
- 简述: 包含humorous_jokes中长度超过140个字符的笑话。
2. 路透社新闻标题数据集
- 文件名: reuters
- 文件类型: .pickle
- 大小: 10142项
- 来源: Twitter
- 简述: 包含国际新闻机构路透社发布的推文标题。通过Deduplication.py去重,移除了Jaccard相似系数大于等于0.9的标题。
3. 英语谚语数据集
- 文件名: proverbs
- 文件类型: .pickle
- 大小: 1019项
- 来源: http://www.citehr.com/32222-1000-english-proverbs-sayings-love-blind.html, http://www.english-for-students.com/Proverbs.html
- 简述: 包含大量英语谚语,通过Deduplication.py去重。
4. 维基百科句子数据集
- 文件名: short_wiki_sentences
- 文件类型: .pickle
- 大小: 10076项
- 来源: http://www.cs.pomona.edu/~dkauchak/simplification/
- 简述: 包含随机选择的维基百科句子,长度不超过140个字符。通过wiki_sentence_selector.py进行选择。
搜集汇总
数据集介绍

构建方式
Humorous Jokes数据集的构建过程涉及从多个在线资源中收集幽默笑话,包括Twitter、textfiles.com、funnyshortjokes.com等。为确保数据的唯一性,采用了Jaccard相似系数进行去重处理,移除相似度高于或等于0.9的条目。数据集进一步细分为短笑话和长笑话两类,分别包含不超过140字符和超过140字符的条目。
特点
该数据集的特点在于其专注于幽默检测任务,提供了大量正样本。数据集包含11743条幽默笑话,分为10076条短笑话和1667条长笑话。此外,数据集还涵盖了Reuters新闻标题、英语谚语和维基百科句子,为幽默检测提供了丰富的对比材料。数据集的多样性和广泛来源使其成为研究幽默识别的理想选择。
使用方法
使用Humorous Jokes数据集时,研究人员可通过加载.pickle文件直接访问数据。数据集中的幽默笑话可用于训练和测试幽默检测模型,而Reuters新闻标题、英语谚语和维基百科句子则可用作负样本或对比材料。此外,提供的Python脚本如Deduplication.py和Extract_from_twitter.py,支持用户重复数据收集过程或进行自定义数据处理。
背景与挑战
背景概述
Humorous Jokes数据集专注于幽默检测领域,旨在为幽默识别任务提供丰富的文本语料。该数据集由多个来源的幽默笑话组成,包括Twitter、文本文件网站以及多个笑话分享平台。数据集创建过程中,研究人员通过去重处理,确保笑话的多样性,并进一步将笑话分为短笑话和长笑话两类。该数据集的构建为幽默识别研究提供了重要的数据支持,推动了自然语言处理领域在情感分析和文本分类方向的发展。
当前挑战
Humorous Jokes数据集在构建和应用过程中面临多重挑战。首先,幽默识别本身具有高度主观性,不同文化背景和语言习惯可能导致对幽默的理解差异,这为模型的泛化能力提出了更高要求。其次,数据集中包含的笑话可能涉及种族歧视、性别歧视等敏感内容,如何在数据清洗和模型训练中处理这些内容是一个重要问题。此外,数据集的构建依赖于多源数据采集和去重处理,确保数据的质量和多样性也需耗费大量精力。这些挑战不仅体现在数据集的构建过程中,也对后续的模型训练和评估提出了更高的标准。
常用场景
经典使用场景
在自然语言处理领域,幽默检测是一个具有挑战性的任务,Humorous Jokes数据集为这一任务提供了丰富的正样本。该数据集包含来自多个来源的幽默笑话,经过去重处理,确保了数据的多样性和独特性。研究人员可以利用这些数据训练和测试幽默识别模型,探索幽默在文本中的表现形式和识别方法。
实际应用
在实际应用中,Humorous Jokes数据集可以用于社交媒体平台的内容审核和推荐系统。通过识别幽默内容,平台可以为用户提供更具吸引力的内容推荐,同时过滤掉不适当或冒犯性的笑话。此外,该数据集还可用于开发智能聊天机器人,使其能够生成或识别幽默对话,提升用户体验。
衍生相关工作
基于Humorous Jokes数据集,研究者们开展了多项经典工作。例如,有研究利用该数据集开发了基于深度学习的幽默检测模型,显著提高了幽默识别的准确率。此外,该数据集还被用于跨文化幽默研究,探讨不同文化背景下幽默表达的差异。这些研究不仅丰富了幽默检测的理论基础,也为相关领域的应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成



