joke-dataset

github2024-05-21 更新2024-05-31 收录

下载链接：

https://github.com/taivop/joke-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含约208,000条英语纯文本笑话的数据集，从三个不同来源抓取。该数据集主要用于研究目的，不涉及商业使用。

A dataset comprising approximately 208,000 English plain text jokes, scraped from three distinct sources. This dataset is primarily intended for research purposes and is not involved in commercial use.

创建时间：

2017-02-14

原始信息汇总

数据集概述

数据集名称

A dataset of English plaintext jokes

数据集大小

总笑话数量：约208,000个
总令牌数：8.91M

数据来源

reddit_jokes.json：来自Reddit的/r/jokes子论坛，包含195,000个笑话。
stupidstuff.json：来自stupidstuff.org，包含3,770个笑话。
wocka.json：来自wocka.com，包含10,000个笑话。

文件格式

每个文件为JSON格式，包含一系列笑话对象。
每个笑话对象包含body字段，其他字段根据数据源不同而异。

数据字段

reddit_jokes.json

id: 提交ID
score: 帖子得分
title: 提交标题

stupidstuff.json

id: 页面ID
category: 类别
rating: 用户评分（1-5分）

wocka.json

id: 页面ID
category: 类别
title: 笑话标题

许可与使用

数据集仅供研究使用，不建议商业使用。
版权问题不明确，如需移除版权内容，请联系GitHub。

引用信息

bibtex @misc{pungas, title={A dataset of English plaintext jokes.}, url={https://github.com/taivop/joke-dataset}, author={Pungas, Taivo}, year={2017}, publisher = {GitHub}, journal = {GitHub repository} }

搜集汇总

数据集介绍

构建方式

该数据集的构建基于从三个主要来源抓取的英语纯文本笑话，包括Reddit的/r/jokes子版块、stupidstuff.org以及wocka.com。每个来源的数据分别存储在独立的JSON文件中，总计约208,000条笑话，涵盖了广泛的幽默内容。数据抓取过程中，保留了每条笑话的原始标识符、评分、标题及类别等元数据，以支持后续的分析和研究。

特点

此数据集的显著特点在于其规模庞大且来源多样，涵盖了从社交媒体到专业笑话网站的广泛内容。每条笑话均包含详细的元数据，如评分和类别，这为研究人员提供了丰富的分析维度。此外，数据集的结构化格式使得数据处理和检索变得高效便捷，适合用于自然语言处理和幽默分析等领域的研究。

使用方法

使用该数据集时，用户可以通过解析JSON文件直接访问笑话内容及其相关元数据。建议根据研究需求筛选特定类别或评分的笑话，以提高分析的针对性。数据集的灵活性允许用户进行多种类型的分析，如幽默感知的机器学习模型训练或跨文化幽默比较研究。在使用过程中，应遵循非商业用途的许可协议，并确保引用来源以符合学术规范。

背景与挑战

背景概述

joke-dataset，一个包含约208,000条英语笑话的数据集，由Taivo Pungas于2017年创建。该数据集主要用于研究目的，汇集了来自Reddit、stupidstuff.org和wocka.com三个来源的笑话。其核心研究问题涉及笑话的分类、评分及幽默感的量化分析，对自然语言处理和幽默研究领域具有重要影响。通过提供丰富的笑话资源，该数据集为研究人员提供了探索人类幽默机制的宝贵素材。

当前挑战

joke-dataset在构建过程中面临多重挑战。首先，笑话的版权问题复杂，数据集的非商业使用限制了其应用范围。其次，笑话的幽默感主观性强，难以量化，导致数据标注和分类的难度增加。此外，不同来源的笑话格式和质量参差不齐，整合和标准化过程复杂。最后，数据集的静态特性（自2022年12月起不再更新）限制了其时效性和应用的广泛性。

常用场景

经典使用场景

在自然语言处理领域，joke-dataset 数据集的经典使用场景主要集中在幽默检测与生成研究中。研究者们利用该数据集训练模型，以识别和分类不同类型的笑话，从而提升机器对幽默的理解能力。此外，该数据集也被广泛应用于生成式模型，如生成对抗网络（GANs）和变分自编码器（VAEs），以生成新的、具有幽默感的文本内容。

解决学术问题

joke-dataset 数据集在学术研究中解决了幽默理解与生成的关键问题。通过提供大量结构化的笑话数据，研究者能够深入探讨幽默的构成要素及其背后的认知机制。这不仅有助于提升机器对幽默的识别和生成能力，还为心理学、认知科学等领域的研究提供了宝贵的数据支持，推动了跨学科的学术交流与合作。

衍生相关工作

基于 joke-dataset 数据集，研究者们开展了多项经典工作。例如，有研究利用该数据集训练深度学习模型，成功实现了笑话的自动分类和生成。此外，还有学者通过分析数据集中的笑话结构，提出了新的幽默理论模型，进一步推动了幽默研究的理论发展。这些衍生工作不仅丰富了自然语言处理的研究内容，也为相关领域的应用提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集