joke-dataset
收藏github2024-05-21 更新2024-05-31 收录
下载链接:
https://github.com/taivop/joke-dataset
下载链接
链接失效反馈官方服务:
资源简介:
一个包含约208,000条英语纯文本笑话的数据集,从三个不同来源抓取。该数据集主要用于研究目的,不涉及商业使用。
A dataset comprising approximately 208,000 English plain text jokes, scraped from three distinct sources. This dataset is primarily intended for research purposes and is not involved in commercial use.
创建时间:
2017-02-14
原始信息汇总
数据集概述
数据集名称
A dataset of English plaintext jokes
数据集大小
- 总笑话数量:约208,000个
- 总令牌数:8.91M
数据来源
- reddit_jokes.json:来自Reddit的/r/jokes子论坛,包含195,000个笑话。
- stupidstuff.json:来自stupidstuff.org,包含3,770个笑话。
- wocka.json:来自wocka.com,包含10,000个笑话。
文件格式
- 每个文件为JSON格式,包含一系列笑话对象。
- 每个笑话对象包含
body字段,其他字段根据数据源不同而异。
数据字段
reddit_jokes.json
id: 提交IDscore: 帖子得分title: 提交标题
stupidstuff.json
id: 页面IDcategory: 类别rating: 用户评分(1-5分)
wocka.json
id: 页面IDcategory: 类别title: 笑话标题
许可与使用
- 数据集仅供研究使用,不建议商业使用。
- 版权问题不明确,如需移除版权内容,请联系GitHub。
引用信息
bibtex @misc{pungas, title={A dataset of English plaintext jokes.}, url={https://github.com/taivop/joke-dataset}, author={Pungas, Taivo}, year={2017}, publisher = {GitHub}, journal = {GitHub repository} }
搜集汇总
数据集介绍

构建方式
该数据集的构建基于从三个主要来源抓取的英语纯文本笑话,包括Reddit的/r/jokes子版块、stupidstuff.org以及wocka.com。每个来源的数据分别存储在独立的JSON文件中,总计约208,000条笑话,涵盖了广泛的幽默内容。数据抓取过程中,保留了每条笑话的原始标识符、评分、标题及类别等元数据,以支持后续的分析和研究。
特点
此数据集的显著特点在于其规模庞大且来源多样,涵盖了从社交媒体到专业笑话网站的广泛内容。每条笑话均包含详细的元数据,如评分和类别,这为研究人员提供了丰富的分析维度。此外,数据集的结构化格式使得数据处理和检索变得高效便捷,适合用于自然语言处理和幽默分析等领域的研究。
使用方法
使用该数据集时,用户可以通过解析JSON文件直接访问笑话内容及其相关元数据。建议根据研究需求筛选特定类别或评分的笑话,以提高分析的针对性。数据集的灵活性允许用户进行多种类型的分析,如幽默感知的机器学习模型训练或跨文化幽默比较研究。在使用过程中,应遵循非商业用途的许可协议,并确保引用来源以符合学术规范。
背景与挑战
背景概述
joke-dataset,一个包含约208,000条英语笑话的数据集,由Taivo Pungas于2017年创建。该数据集主要用于研究目的,汇集了来自Reddit、stupidstuff.org和wocka.com三个来源的笑话。其核心研究问题涉及笑话的分类、评分及幽默感的量化分析,对自然语言处理和幽默研究领域具有重要影响。通过提供丰富的笑话资源,该数据集为研究人员提供了探索人类幽默机制的宝贵素材。
当前挑战
joke-dataset在构建过程中面临多重挑战。首先,笑话的版权问题复杂,数据集的非商业使用限制了其应用范围。其次,笑话的幽默感主观性强,难以量化,导致数据标注和分类的难度增加。此外,不同来源的笑话格式和质量参差不齐,整合和标准化过程复杂。最后,数据集的静态特性(自2022年12月起不再更新)限制了其时效性和应用的广泛性。
常用场景
经典使用场景
在自然语言处理领域,joke-dataset 数据集的经典使用场景主要集中在幽默检测与生成研究中。研究者们利用该数据集训练模型,以识别和分类不同类型的笑话,从而提升机器对幽默的理解能力。此外,该数据集也被广泛应用于生成式模型,如生成对抗网络(GANs)和变分自编码器(VAEs),以生成新的、具有幽默感的文本内容。
解决学术问题
joke-dataset 数据集在学术研究中解决了幽默理解与生成的关键问题。通过提供大量结构化的笑话数据,研究者能够深入探讨幽默的构成要素及其背后的认知机制。这不仅有助于提升机器对幽默的识别和生成能力,还为心理学、认知科学等领域的研究提供了宝贵的数据支持,推动了跨学科的学术交流与合作。
衍生相关工作
基于 joke-dataset 数据集,研究者们开展了多项经典工作。例如,有研究利用该数据集训练深度学习模型,成功实现了笑话的自动分类和生成。此外,还有学者通过分析数据集中的笑话结构,提出了新的幽默理论模型,进一步推动了幽默研究的理论发展。这些衍生工作不仅丰富了自然语言处理的研究内容,也为相关领域的应用提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



