joke-dataset

github2022-06-15 更新2024-05-31 收录

下载链接：

https://github.com/adconk/joke-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含约208,000个英语纯文本笑话的数据集，数据来源于三个不同的网站，每个网站的笑话分别存储在不同的JSON文件中。数据集主要用于研究目的，不涉及商业使用。

本数据集汇聚了约208,000条英语纯文本笑话，其来源涵盖三个独立网站，且各网站笑话分别独立存储于不同的JSON文件之中。此数据集旨在学术研究之用，其应用范畴不包括商业目的。

创建时间：

2018-08-14

原始信息汇总

数据集概述

基本信息

名称: A dataset of English plaintext jokes
笑话数量: 约208,000个
来源: 三个不同来源
用途: 研究目的

文件详情

文件名 | 笑话数量 | 字数
--- | --- | ---
reddit_jokes.json | 195K | 7.40M
stupidstuff.json | 3.77K | 396K
wocka.json | 10.0K | 1.11M
总计 | 208K | 8.91M

数据格式

格式: JSON文档
结构: 每个文件包含一个笑话对象列表，每个笑话对象包含body字段，其他字段根据数据集不同而异。

数据集详情

reddit_jokes.json

来源: /r/jokes
时间: 截至2017年2月13日
额外字段:
- id: 提交ID
- score: 帖子分数
- title: 提交标题

stupidstuff.json

来源: stupidstuff.org
额外字段:
- id: 页面ID
- category: 类别
- rating: 用户评分（1-5）

wocka.json

来源: wocka.com
额外字段:
- id: 页面ID
- category: 类别
- title: 笑话标题

许可证

用途: 研究目的
版权声明: 不声明所有权，不建议商业使用

引用格式

bibtex @misc{pungas, title={A dataset of English plaintext jokes.}, url={https://github.com/taivop/joke-dataset}, author={Pungas, Taivo}, year={2017}, publisher = {GitHub}, journal = {GitHub repository} }

搜集汇总

数据集介绍

构建方式

该数据集通过从三个不同的在线平台（Reddit的/r/jokes子论坛、stupidstuff.org和wocka.com）爬取笑话内容构建而成。每个平台的笑话以JSON格式存储，包含笑话的主体文本及附加字段，如ID、评分、标题等。数据集总计包含约208,000条笑话，涵盖了广泛的幽默风格和主题。

特点

joke-dataset数据集的特点在于其多样性和丰富性。数据集不仅包含了大量的笑话文本，还提供了每个笑话的附加信息，如Reddit上的评分、stupidstuff.org的用户评分以及wocka.com的分类标签。这些附加信息为研究者提供了多维度的分析视角，使得数据集在幽默研究、自然语言处理等领域具有较高的应用价值。

使用方法

使用该数据集时，研究者可以通过加载JSON文件直接访问笑话内容及其附加信息。由于每个笑话的格式统一，用户可以根据需要筛选特定类别的笑话或基于评分进行排序。数据集适用于文本分析、情感分析、幽默风格分类等研究任务。在使用过程中，建议遵循数据集的许可协议，避免商业用途，并在学术研究中引用相关文献。

背景与挑战

背景概述

joke-dataset数据集由Taivo Pungas于2017年创建，旨在为自然语言处理和幽默研究领域提供一个大规模的英文笑话文本资源。该数据集从三个主要来源（Reddit的/r/jokes子论坛、stupidstuff.org和wocka.com）抓取了约208,000条笑话，涵盖了多种类型和风格。这些笑话以JSON格式存储，每条笑话包含`body`字段，部分还包含`id`、`score`、`title`、`category`等附加信息。该数据集为幽默生成、情感分析、文本分类等研究任务提供了丰富的语料支持，推动了相关领域的发展。

当前挑战

joke-dataset面临的挑战主要集中在两个方面。首先，幽默的多样性和主观性使得自动识别和生成高质量笑话变得极为复杂。尽管数据集提供了大量笑话，但如何从中筛选出真正有趣的内容仍是一个难题。其次，数据集的构建过程中涉及版权问题。由于笑话的版权归属不明确，数据集的使用受到限制，尤其是在商业应用中。此外，数据来源的多样性和格式差异也增加了数据清洗和整合的难度，影响了数据集的统一性和可用性。

常用场景

经典使用场景

joke-dataset数据集广泛应用于自然语言处理（NLP）领域，特别是在幽默检测和生成任务中。研究人员利用该数据集中的笑话文本，训练和评估模型以识别幽默内容或生成新的笑话。通过分析笑话的结构、语义和情感，该数据集为幽默理解提供了丰富的语料支持。

衍生相关工作

基于joke-dataset，许多经典研究工作得以展开。例如，研究人员开发了基于深度学习的幽默检测模型，利用该数据集进行训练和验证。此外，一些研究还探索了笑话生成的自动化方法，通过分析笑话的语义结构和情感特征，生成符合特定风格或主题的笑话内容。这些工作进一步推动了幽默相关研究在NLP领域的深入发展。

数据集最近研究