five

Short Jokes

收藏
github2024-04-16 更新2024-05-31 收录
下载链接:
https://github.com/amoudgl/short-jokes-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从各种网站和Reddit子论坛收集的231,657个短笑话,通过Python脚本进行收集和整理,最终合并成一个CSV文件。

This dataset comprises 231,657 short jokes collected from various websites and Reddit subforums. The collection and organization were conducted using Python scripts, culminating in the consolidation of the data into a single CSV file.
创建时间:
2017-02-07
原始信息汇总

Short Jokes Dataset 概述

数据集内容

  • 笑话数量:231,657条短笑话
  • 数据来源:从多个网站抓取,包括特定的子论坛如 /r/jokes/r/cleanjokes

数据处理

  • 抓取脚本:位于 /scripts/scrapers/ 目录下,针对特定网站编写,生成格式为 ID, Joke 的CSV文件。
  • 子论坛数据处理:使用 scripts/scrapers/subredditarchive.py 脚本,通过 PRAW 和 Reddit API 抓取数据,生成JSON文件,最终转换为CSV格式。
  • 数据合并:使用 scripts/merge_csvs.py 脚本去除重复项,合并所有CSV文件为最终的 shortjokes.csv

数据集贡献

  • 贡献方式:欢迎提供新的笑话资源或提交包含抓取脚本和CSV文件的拉取请求。
  • 其他建议:对于数据集的改进建议也受到欢迎。
搜集汇总
数据集介绍
main_image_url
构建方式
在幽默计算与自然语言处理领域,高质量笑话数据集的构建对模型训练至关重要。Short Jokes数据集通过系统化网络爬取技术整合而成,其采集过程严格遵循目标网站的robots.txt协议,仅针对允许爬取且无验证码或脚本拦截的站点进行数据收集。具体而言,利用Python编写的专用爬虫脚本从多个笑话网站抓取文本,并以统一格式存储为CSV文件。同时,借助PRAW库调用Reddit API,以每两秒一次的合规频率获取/r/jokes和/r/cleanjokes子版块自创建起至2017年1月31日的历史帖子,通过时间戳搜索提取JSON格式的原始数据,最终经过去重与合并流程生成包含231,657条短笑话的结构化数据集。
特点
该数据集在内容构成上具有鲜明的领域特色,全部条目均为简洁的短文本笑话,适用于幽默识别、文本生成等研究任务。其规模庞大且来源多样,覆盖了独立笑话网站与Reddit社区两大渠道,确保了内容的丰富性与代表性。数据经过清洗与去重处理,格式高度统一,每条记录均包含ID与笑话正文两列,便于直接用于机器学习流程。此外,数据采集过程注重法律与伦理合规性,严格遵循平台条款,为学术使用提供了可靠的基础。
使用方法
研究人员可基于该数据集开展多种自然语言处理实验。数据集以CSV文件形式提供,用户可直接加载至Pandas等数据分析框架中进行探索与预处理。对于幽默检测任务,可将笑话文本作为正样本,并搭配其他中性文本构建分类模型。在生成任务中,这些短笑话可作为训练序列到序列模型或语言模型的优质语料。数据集的标准化格式也方便进行分词、嵌入表示等特征提取操作,或与其他幽默数据集进行对比与融合研究,以推动计算幽默领域的模型创新。
背景与挑战
背景概述
在自然语言处理与计算幽默研究领域,大规模、高质量的笑话数据集对于推进幽默生成与理解模型的发展至关重要。Short Jokes数据集由研究人员Abhinav Moudgil于2017年前后构建,通过爬取多个允许抓取的网站及Reddit子论坛/r/jokes与/r/cleanjokes,汇集了231,657条短笑话文本。该数据集以ID和笑话两列结构化格式呈现,旨在为幽默检测、文本生成及语义分析等任务提供基准资源,对促进人工智能在创造性语言应用方面的探索具有显著影响。
当前挑战
Short Jokes数据集所针对的幽默文本生成与分类任务,面临核心挑战包括幽默的主观性与文化依赖性,这导致模型难以统一捕捉笑话中的语义歧义、双关及讽刺元素。在构建过程中,挑战主要集中于数据采集的合规性与质量把控,例如需严格遵守网站robots.txt协议与Reddit API调用频率限制,同时规避验证码等反爬机制,并需通过去重与格式整合确保数据的纯净性与一致性。
常用场景
经典使用场景
在自然语言处理与计算幽默研究领域,Short Jokes数据集常被用于训练和评估幽默生成与识别模型。该数据集汇集了超过23万条短笑话,为研究者提供了丰富的文本素材,以探索幽默的语言模式、语义结构及文化背景。通过分析这些简洁而富有创意的笑话,学者能够深入理解幽默的生成机制,从而推动人工智能在创造性文本生成方面的发展。
实际应用
在实际应用中,Short Jokes数据集被广泛集成于聊天机器人、社交媒体平台及娱乐应用中,以增强人机交互的趣味性和亲和力。例如,智能助手可借助该数据集生成适时、恰当的笑话,提升用户体验;内容推荐系统则能基于幽默偏好进行个性化推送。这些应用不仅丰富了数字娱乐生态,也展示了人工智能在创意产业中的潜力。
衍生相关工作
基于Short Jokes数据集,学术界衍生了一系列经典研究工作,如幽默风格分类模型、端到端的笑话生成系统,以及跨语言幽默迁移实验。这些工作不仅推动了深度学习在自然语言生成领域的进展,还催生了如HumorBERT等专用模型,为计算幽默研究设立了新的技术标杆,并激发了后续在情感计算和创造性AI方面的探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作