Short Jokes
收藏github2024-04-16 更新2024-05-31 收录
下载链接:
https://github.com/abhinavmoudgil95/short-jokes-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从各种网站和Reddit子论坛收集的231,657条短笑话,通过Python脚本进行数据抓取和整理,最终形成一个统一的CSV文件。
This dataset comprises 231,657 short jokes collected from various websites and Reddit subforums. The data was scraped and organized using Python scripts, culminating in a unified CSV file.
创建时间:
2017-02-07
原始信息汇总
数据集概述
数据集名称
short-jokes-dataset
数据集内容
该数据集包含231,657条短笑话,这些笑话是从多个网站上爬取的。
数据结构
- 文件格式:CSV
- 数据字段:ID, Joke
数据来源
- 网站爬取:使用位于
/scripts/scrapers/的脚本从允许爬取的网站上获取。 - Reddit爬取:通过
scripts/scrapers/subredditarchive.py从/r/jokes和/r/cleanjokes两个子论坛爬取,使用PRAW库和Reddit API,生成JSON文件。
数据处理
- 去重与合并:使用
scripts/merge_csvs.py去除重复并合并所有CSV文件,生成最终的shortjokes.csv。
贡献方式
- 提供新的笑话资源或相应的爬虫脚本和CSV文件。
- 对数据集的其他建设性建议。
搜集汇总
数据集介绍

构建方式
在幽默文本挖掘领域,Short Jokes数据集通过系统化网络采集构建而成。其构建过程主要依托定制化的网络爬虫脚本,针对允许爬取且无验证码或脚本拦截的网站进行数据抓取,确保采集行为符合网络规范。对于Reddit平台上的笑话内容,则采用PRAW API包装器,遵循平台使用条款,以时间戳搜索方式从/r/jokes和/r/cleanjokes子论坛中提取自创建日起至2017年1月31日的帖子,并通过延时请求机制保障数据获取的合规性。最终通过去重与合并流程,将分散的CSV文件整合为统一格式的数据集。
特点
该数据集囊括了231,657条短笑话文本,呈现出规模适中、内容集中的特点。其文本来源涵盖了多个独立网站与主流社交论坛,兼具多样性与代表性。数据以ID与笑话内容的简洁结构存储,便于直接应用于自然语言处理任务。所有笑话均经过清洁处理,避免了低俗或不适宜内容,符合学术研究对数据质量的要求。这种结构化的组织形式为幽默识别、文本生成等研究提供了高质量的语料基础。
使用方法
研究人员可通过Kaggle平台直接获取该数据集的CSV文件,其标准化的两列格式便于导入各类数据分析工具。在自然语言处理应用中,该数据集常被用于训练幽默检测模型,通过文本分类算法区分幽默与非幽默内容。同时,在生成式人工智能领域,这些短笑话可作为风格化文本生成的训练素材,帮助模型学习幽默表达的语言特征。使用过程中需注意遵守原始数据源的版权与使用条款,确保研究应用的合规性。
背景与挑战
背景概述
在自然语言处理与计算幽默学领域,幽默文本的自动生成与识别一直是极具挑战性的研究方向。Short Jokes数据集由研究人员Abhinav Moudgil于2017年构建,通过爬取多个允许数据采集的网站及Reddit子论坛,汇集了超过23万条短笑话。该数据集旨在为幽默检测、文本生成及情感分析等任务提供大规模、高质量的语料支持,推动了计算语言学在理解人类幽默机制方面的进展,成为相关领域的重要基准资源之一。
当前挑战
Short Jokes数据集所针对的核心领域问题是短文本幽默的自动识别与生成,其挑战在于幽默具有高度文化依赖性和语境敏感性,模型需捕捉微妙的双关、讽刺及意外转折。在构建过程中,面临数据源合规性约束,仅能采集允许爬取的网站,并需规避CAPTCHA等反爬机制;同时,Reddit数据采集受API速率限制,须间隔两秒请求,且需处理海量JSON文件以去重合并,确保数据质量与一致性。
常用场景
经典使用场景
在自然语言处理领域,幽默生成与理解一直是极具挑战性的研究方向。Short Jokes数据集以其海量、简洁的文本特性,为幽默检测模型提供了丰富的训练素材。研究者们常利用该数据集构建分类器,以区分幽默文本与非幽默文本,进而探索语言中的讽刺、双关等微妙表达。通过机器学习算法,模型能够学习到幽默语言的内在模式,为自动笑话生成系统奠定基础。
实际应用
在实际应用中,Short Jokes数据集为聊天机器人、社交平台内容推荐系统注入了人性化互动元素。基于该数据集训练的模型能够增强对话系统的趣味性,提升用户参与度与满意度。此外,在心理健康辅助工具中,幽默生成功能可被用于缓解压力、改善情绪,体现了人工智能技术在社会关怀层面的积极价值。
衍生相关工作
围绕Short Jokes数据集,学术界涌现了一系列经典研究工作。例如,基于深度学习的幽默风格迁移模型,能够将普通文本转化为幽默表达;还有研究聚焦于跨文化幽默对比分析,利用该数据集探讨不同语言背景下的幽默差异。这些衍生工作不仅拓展了计算幽默的研究边界,也为自然语言生成领域的创新提供了重要启示。
以上内容由遇见数据集搜集并总结生成



