Short Jokes

github2024-04-16 更新2024-05-31 收录

下载链接：

https://github.com/amoudgl/short-jokes-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从各种网站和Reddit子论坛收集的231,657个短笑话，通过Python脚本进行收集和整理，最终合并成一个CSV文件。

This dataset comprises 231,657 short jokes collected from various websites and Reddit subforums. The collection and organization were conducted using Python scripts, culminating in the consolidation of the data into a single CSV file.

创建时间：

2017-02-07

原始信息汇总

Short Jokes Dataset 概述

数据集内容

笑话数量：231,657条短笑话
数据来源：从多个网站抓取，包括特定的子论坛如 /r/jokes 和 /r/cleanjokes。

数据处理

抓取脚本：位于 /scripts/scrapers/ 目录下，针对特定网站编写，生成格式为 ID, Joke 的CSV文件。
子论坛数据处理：使用 scripts/scrapers/subredditarchive.py 脚本，通过 PRAW 和 Reddit API 抓取数据，生成JSON文件，最终转换为CSV格式。
数据合并：使用 scripts/merge_csvs.py 脚本去除重复项，合并所有CSV文件为最终的 shortjokes.csv。

数据集贡献

贡献方式：欢迎提供新的笑话资源或提交包含抓取脚本和CSV文件的拉取请求。
其他建议：对于数据集的改进建议也受到欢迎。

搜集汇总

数据集介绍

构建方式

在幽默计算与自然语言处理领域，高质量笑话数据集的构建对模型训练至关重要。Short Jokes数据集通过系统化网络爬取技术整合而成，其采集过程严格遵循目标网站的robots.txt协议，仅针对允许爬取且无验证码或脚本拦截的站点进行数据收集。具体而言，利用Python编写的专用爬虫脚本从多个笑话网站抓取文本，并以统一格式存储为CSV文件。同时，借助PRAW库调用Reddit API，以每两秒一次的合规频率获取/r/jokes和/r/cleanjokes子版块自创建起至2017年1月31日的历史帖子，通过时间戳搜索提取JSON格式的原始数据，最终经过去重与合并流程生成包含231,657条短笑话的结构化数据集。

特点

该数据集在内容构成上具有鲜明的领域特色，全部条目均为简洁的短文本笑话，适用于幽默识别、文本生成等研究任务。其规模庞大且来源多样，覆盖了独立笑话网站与Reddit社区两大渠道，确保了内容的丰富性与代表性。数据经过清洗与去重处理，格式高度统一，每条记录均包含ID与笑话正文两列，便于直接用于机器学习流程。此外，数据采集过程注重法律与伦理合规性，严格遵循平台条款，为学术使用提供了可靠的基础。

使用方法

研究人员可基于该数据集开展多种自然语言处理实验。数据集以CSV文件形式提供，用户可直接加载至Pandas等数据分析框架中进行探索与预处理。对于幽默检测任务，可将笑话文本作为正样本，并搭配其他中性文本构建分类模型。在生成任务中，这些短笑话可作为训练序列到序列模型或语言模型的优质语料。数据集的标准化格式也方便进行分词、嵌入表示等特征提取操作，或与其他幽默数据集进行对比与融合研究，以推动计算幽默领域的模型创新。

背景与挑战

背景概述

在自然语言处理与计算幽默研究领域，大规模、高质量的笑话数据集对于推进幽默生成与理解模型的发展至关重要。Short Jokes数据集由研究人员Abhinav Moudgil于2017年前后构建，通过爬取多个允许抓取的网站及Reddit子论坛/r/jokes与/r/cleanjokes，汇集了231,657条短笑话文本。该数据集以ID和笑话两列结构化格式呈现，旨在为幽默检测、文本生成及语义分析等任务提供基准资源，对促进人工智能在创造性语言应用方面的探索具有显著影响。

当前挑战

Short Jokes数据集所针对的幽默文本生成与分类任务，面临核心挑战包括幽默的主观性与文化依赖性，这导致模型难以统一捕捉笑话中的语义歧义、双关及讽刺元素。在构建过程中，挑战主要集中于数据采集的合规性与质量把控，例如需严格遵守网站robots.txt协议与Reddit API调用频率限制，同时规避验证码等反爬机制，并需通过去重与格式整合确保数据的纯净性与一致性。

常用场景

经典使用场景

在自然语言处理与计算幽默研究领域，Short Jokes数据集常被用于训练和评估幽默生成与识别模型。该数据集汇集了超过23万条短笑话，为研究者提供了丰富的文本素材，以探索幽默的语言模式、语义结构及文化背景。通过分析这些简洁而富有创意的笑话，学者能够深入理解幽默的生成机制，从而推动人工智能在创造性文本生成方面的发展。

实际应用

在实际应用中，Short Jokes数据集被广泛集成于聊天机器人、社交媒体平台及娱乐应用中，以增强人机交互的趣味性和亲和力。例如，智能助手可借助该数据集生成适时、恰当的笑话，提升用户体验；内容推荐系统则能基于幽默偏好进行个性化推送。这些应用不仅丰富了数字娱乐生态，也展示了人工智能在创意产业中的潜力。

衍生相关工作

基于Short Jokes数据集，学术界衍生了一系列经典研究工作，如幽默风格分类模型、端到端的笑话生成系统，以及跨语言幽默迁移实验。这些工作不仅推动了深度学习在自然语言生成领域的进展，还催生了如HumorBERT等专用模型，为计算幽默研究设立了新的技术标杆，并激发了后续在情感计算和创造性AI方面的探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集