Short Jokes

github2024-04-16 更新2024-05-31 收录

下载链接：

https://github.com/abhinavmoudgil95/short-jokes-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从各种网站和Reddit子论坛收集的231,657条短笑话，通过Python脚本进行数据抓取和整理，最终形成一个统一的CSV文件。

This dataset comprises 231,657 short jokes collected from various websites and Reddit subforums. The data was scraped and organized using Python scripts, culminating in a unified CSV file.

创建时间：

2017-02-07

原始信息汇总

数据集概述

数据集名称

short-jokes-dataset

数据集内容

该数据集包含231,657条短笑话，这些笑话是从多个网站上爬取的。

数据结构

文件格式：CSV
数据字段：ID, Joke

数据来源

网站爬取：使用位于/scripts/scrapers/的脚本从允许爬取的网站上获取。
Reddit爬取：通过scripts/scrapers/subredditarchive.py从/r/jokes和/r/cleanjokes两个子论坛爬取，使用PRAW库和Reddit API，生成JSON文件。

数据处理

去重与合并：使用scripts/merge_csvs.py去除重复并合并所有CSV文件，生成最终的shortjokes.csv。

贡献方式

提供新的笑话资源或相应的爬虫脚本和CSV文件。
对数据集的其他建设性建议。

搜集汇总

数据集介绍

构建方式

在幽默文本挖掘领域，Short Jokes数据集通过系统化网络采集构建而成。其构建过程主要依托定制化的网络爬虫脚本，针对允许爬取且无验证码或脚本拦截的网站进行数据抓取，确保采集行为符合网络规范。对于Reddit平台上的笑话内容，则采用PRAW API包装器，遵循平台使用条款，以时间戳搜索方式从/r/jokes和/r/cleanjokes子论坛中提取自创建日起至2017年1月31日的帖子，并通过延时请求机制保障数据获取的合规性。最终通过去重与合并流程，将分散的CSV文件整合为统一格式的数据集。

特点

该数据集囊括了231,657条短笑话文本，呈现出规模适中、内容集中的特点。其文本来源涵盖了多个独立网站与主流社交论坛，兼具多样性与代表性。数据以ID与笑话内容的简洁结构存储，便于直接应用于自然语言处理任务。所有笑话均经过清洁处理，避免了低俗或不适宜内容，符合学术研究对数据质量的要求。这种结构化的组织形式为幽默识别、文本生成等研究提供了高质量的语料基础。

使用方法

研究人员可通过Kaggle平台直接获取该数据集的CSV文件，其标准化的两列格式便于导入各类数据分析工具。在自然语言处理应用中，该数据集常被用于训练幽默检测模型，通过文本分类算法区分幽默与非幽默内容。同时，在生成式人工智能领域，这些短笑话可作为风格化文本生成的训练素材，帮助模型学习幽默表达的语言特征。使用过程中需注意遵守原始数据源的版权与使用条款，确保研究应用的合规性。

背景与挑战

背景概述

在自然语言处理与计算幽默学领域，幽默文本的自动生成与识别一直是极具挑战性的研究方向。Short Jokes数据集由研究人员Abhinav Moudgil于2017年构建，通过爬取多个允许数据采集的网站及Reddit子论坛，汇集了超过23万条短笑话。该数据集旨在为幽默检测、文本生成及情感分析等任务提供大规模、高质量的语料支持，推动了计算语言学在理解人类幽默机制方面的进展，成为相关领域的重要基准资源之一。

当前挑战

Short Jokes数据集所针对的核心领域问题是短文本幽默的自动识别与生成，其挑战在于幽默具有高度文化依赖性和语境敏感性，模型需捕捉微妙的双关、讽刺及意外转折。在构建过程中，面临数据源合规性约束，仅能采集允许爬取的网站，并需规避CAPTCHA等反爬机制；同时，Reddit数据采集受API速率限制，须间隔两秒请求，且需处理海量JSON文件以去重合并，确保数据质量与一致性。

常用场景

经典使用场景

在自然语言处理领域，幽默生成与理解一直是极具挑战性的研究方向。Short Jokes数据集以其海量、简洁的文本特性，为幽默检测模型提供了丰富的训练素材。研究者们常利用该数据集构建分类器，以区分幽默文本与非幽默文本，进而探索语言中的讽刺、双关等微妙表达。通过机器学习算法，模型能够学习到幽默语言的内在模式，为自动笑话生成系统奠定基础。

实际应用

在实际应用中，Short Jokes数据集为聊天机器人、社交平台内容推荐系统注入了人性化互动元素。基于该数据集训练的模型能够增强对话系统的趣味性，提升用户参与度与满意度。此外，在心理健康辅助工具中，幽默生成功能可被用于缓解压力、改善情绪，体现了人工智能技术在社会关怀层面的积极价值。

衍生相关工作

围绕Short Jokes数据集，学术界涌现了一系列经典研究工作。例如，基于深度学习的幽默风格迁移模型，能够将普通文本转化为幽默表达；还有研究聚焦于跨文化幽默对比分析，利用该数据集探讨不同语言背景下的幽默差异。这些衍生工作不仅拓展了计算幽默的研究边界，也为自然语言生成领域的创新提供了重要启示。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集