Short text corpus with focus on humor detection

github2021-04-20 更新2024-05-31 收录

下载链接：

https://github.com/svenvdbeukel/Short-text-corpus-with-focus-on-humor-detection

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库发布的数据集专注于在一行中识别幽默。包含六个数据集和用于收集这些数据集的Python代码。数据集包括幽默笑话、路透社标题、英语谚语和维基百科句子等，用于幽默识别任务。

The dataset released by this repository focuses on identifying humor in a single line. It includes six datasets and Python code for collecting these datasets. The datasets encompass humorous jokes, Reuters headlines, English proverbs, and Wikipedia sentences, among others, for the task of humor recognition.

创建时间：

2016-03-03

原始信息汇总

数据集概述

本数据集包含六个子数据集，主要用于幽默识别任务，具体如下：

1. 幽默笑话集

1.1. Oneliners
- 文件名: short_oneliners
- 文件类型: .pickle
- 大小: 12046项
- 描述: 包含短于140个字符的幽默笑话。
1.2. Long(er) jokes
- 文件名: long_jokes
- 文件类型: .pickle
- 大小: 5606项
- 描述: 包含长于140个字符的幽默笑话。

2. 路透社新闻标题集

文件名: reuters
文件类型: .pickle
大小: 13798项
来源: Reuters.com
描述: 包含路透社网站上发布的新闻标题，已进行去重处理。

3. 英语谚语集

文件名: proverbs
文件类型: .pickle
大小: 1019项
来源: http://www.citehr.com/32222-1000-english-proverbs-sayings-love-blind.html, http://www.english-for-students.com/Proverbs.html
描述: 包含大量英语谚语，已进行去重处理。

4. 维基百科句子集

文件名: wikipedia
文件类型: .pickle
大小: 12046项
来源: http://www.cs.pomona.edu/~dkauchak/simplification/
描述: 包含随机选择的维基百科句子，每个句子长度不超过或等于140个字符。

数据处理工具

Deduplication.py: 用于合并文件并删除重复句子的Python程序，通过计算Jaccard系数进行去重。
web_scraper - Reuters.py: 用于从Reuters.com网站抓取数据的示例Web爬虫程序。
write_functions.py: 包含将字符串列表保存到pickle文件的Python函数。

搜集汇总

数据集介绍

构建方式

该数据集的构建过程主要依赖于网络爬虫技术，通过从多个公开网站（如Reuters.com、CiteHR等）抓取短文本数据，并结合Python脚本进行数据清洗和去重处理。具体而言，数据集中的幽默笑话、新闻标题、英语谚语和维基百科句子均通过自动化脚本进行采集，并使用Jaccard相似系数进行去重，确保数据的多样性和独特性。此外，部分数据集还通过随机抽样和手动验证进一步提升了数据的质量。

使用方法

该数据集的使用方法较为灵活，用户可以通过加载.pickle文件直接获取文本数据，并结合提供的Python脚本进行进一步的数据处理和分析。例如，用户可以使用Deduplication.py脚本对数据进行去重处理，或通过web_scraper - Reuters.py脚本扩展数据集的来源。此外，数据集适用于幽默检测、文本分类等自然语言处理任务，用户可以根据需求选择特定子集进行实验或模型训练。

背景与挑战

背景概述

短文本语料库专注于幽默检测的数据集，旨在为幽默识别任务提供支持，特别是在单句笑话的识别上。该数据集由多个子集构成，包括幽默笑话、路透社新闻标题、英语谚语以及维基百科句子。这些数据通过网页抓取和去重处理，确保了数据的多样性和独特性。该数据集的创建时间可追溯至2017年，主要研究人员通过Python脚本实现了数据的自动化收集与处理。其核心研究问题在于如何通过自然语言处理技术，从短文本中准确识别幽默内容，为情感计算和文本分类领域提供了重要的数据支持。

当前挑战

该数据集在构建和应用过程中面临多重挑战。首先，幽默识别本身具有高度主观性，不同文化背景和语言习惯可能导致幽默感知的差异，这对模型的泛化能力提出了较高要求。其次，数据收集过程中存在噪声问题，例如部分笑话可能包含冒犯性内容，尽管通过人工验证降低了噪声比例，但仍需进一步优化。此外，数据去重过程中使用的Jaccard相似系数阈值设定为0.9，可能导致部分语义相似但表达不同的文本被误删，影响数据的丰富性。最后，数据集的多样性和规模仍需扩展，以覆盖更广泛的幽默类型和语言表达形式，从而提升模型的鲁棒性和实用性。

常用场景

经典使用场景

该数据集专注于幽默检测，特别适用于短文本的幽默识别任务。通过收集和整理来自不同来源的幽默笑话、新闻标题、谚语和维基百科句子，数据集为研究人员提供了一个丰富的语料库，用于训练和测试幽默检测模型。特别是在处理短文本时，该数据集能够有效支持模型的性能评估和优化。

解决学术问题

该数据集解决了幽默检测领域中的关键问题，即如何从短文本中准确识别幽默内容。通过提供多样化的幽默样本和非幽默对照样本，数据集帮助研究人员克服了数据稀缺和样本不平衡的挑战。此外，数据集中的去重处理确保了样本的独特性，减少了模型训练中的噪声干扰，从而提升了研究的准确性和可靠性。

实际应用

在实际应用中，该数据集可以用于开发智能聊天机器人、社交媒体内容过滤系统以及个性化推荐系统。例如，聊天机器人可以通过识别用户的幽默表达，提供更加自然和有趣的互动体验。社交媒体平台则可以利用幽默检测技术，过滤不当内容或推荐符合用户兴趣的幽默帖子，提升用户体验。

数据集最近研究