joke-dataset

github2018-02-14 更新2024-05-31 收录

下载链接：

https://github.com/shanali1613/joke-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

This dataset comprises approximately 208,000 English plain text jokes, sourced from three distinct websites. Primarily intended for research purposes, it does not include any copyright declarations.

创建时间：

2017-11-07

原始信息汇总

数据集概述

基本信息

名称: A dataset of English plaintext jokes
笑话数量: 约208,000个
来源: 三个不同网站
用途: 研究目的

文件详情

文件名 | 笑话数量 | 字数
------------- | ------------- | -------------
reddit_jokes.json | 195,000 jokes | 7.40M tokens
stupidstuff.json | 3,770 jokes | 396K tokens
wocka.json | 10,000 jokes | 1.11M tokens
总计 | 208,000 jokes | 8.91M tokens

数据格式

文件类型: JSON
结构: 每个文件包含一个平铺的笑话对象列表，每个对象包含body字段，其他字段根据数据集不同而异。

数据集详细描述

reddit_jokes.json

来源: /r/jokes
时间: 截至2017年2月13日
额外字段:
- id: 提交ID
- score: 帖子得分
- title: 提交标题

stupidstuff.json

来源: stupidstuff.org
额外字段:
- id: 页面ID
- category: 类别
- rating: 用户评分（1-5）

wocka.json

来源: wocka.com
额外字段:
- id: 页面ID
- category: 类别
- title: 笑话标题

许可与引用

许可: 仅供研究使用，不主张所有权
引用格式: bibtex @misc{pungas, title={A dataset of English plaintext jokes.}, url={https://github.com/taivop/joke-dataset}, author={Pungas, Taivo}, year={2017}, publisher = {GitHub}, journal = {GitHub repository} }

搜集汇总

数据集介绍

构建方式

joke-dataset数据集的构建基于从三个不同来源抓取的英语纯文本笑话，分别为Reddit的/r/jokes子论坛、stupidstuff.org和wocka.com。每个来源的数据被分别存储在独立的JSON文件中，包含约208,000条笑话。这些笑话不仅包含笑话的主体内容，还附带了如评分、分类、标题等元数据，以支持更深入的研究和分析。

特点

该数据集的显著特点在于其多样性和规模，涵盖了从195,000条Reddit笑话到3,770条来自stupidstuff.org的笑话，以及10,000条来自wocka.com的笑话。每条笑话都带有独特的元数据，如评分、分类和标题，这为研究者提供了丰富的分析维度。此外，数据集的开放性允许研究者根据需要进行筛选和排序，以发现最具幽默感的笑话。

使用方法

使用joke-dataset数据集时，研究者可以直接下载包含笑话的JSON文件，并根据需要解析和处理数据。每个笑话对象包含一个`body`字段，以及可能的附加字段如`id`、`score`、`title`和`category`。研究者可以利用这些元数据进行分类、评分分析或幽默感研究。此外，数据集的开放许可允许非商业用途的研究使用，但需注意避免侵犯版权。

背景与挑战

背景概述

在自然语言处理与幽默研究领域，joke-dataset的创建为研究人员提供了一个宝贵的资源。该数据集由Taivo Pungas于2017年构建，汇集了约208,000条英语笑话，来源于Reddit、stupidstuff.org和wocka.com三个主要平台。这些笑话不仅涵盖了广泛的幽默类型，还包含了丰富的元数据，如评分、类别和标题等，为幽默分析、情感计算和文本生成等研究提供了多样化的数据支持。joke-dataset的发布不仅推动了幽默自动化的研究，还为跨文化幽默比较和机器理解人类幽默提供了新的视角。

当前挑战

尽管joke-dataset为幽默研究提供了丰富的数据资源，但其构建与应用仍面临诸多挑战。首先，笑话的幽默感具有高度的主观性和文化依赖性，如何量化和自动化评估笑话的幽默程度是一个复杂的问题。其次，数据集的多样性虽然广泛，但不同来源的笑话质量参差不齐，部分笑话可能包含不当内容或低质量文本，这对数据清洗和预处理提出了较高要求。此外，笑话的版权问题也使得数据集的使用受到限制，尤其是在商业应用中，如何合法合规地使用这些数据仍需进一步探讨。

常用场景

经典使用场景

joke-dataset数据集的经典使用场景主要集中在自然语言处理（NLP）领域，尤其是情感分析、幽默检测和文本生成等任务。研究者可以利用该数据集训练模型，以识别笑话中的幽默元素，评估笑话的趣味性，或生成新的笑话内容。此外，该数据集还可用于探索不同文化背景下的幽默差异，以及笑话在社交媒体中的传播机制。

衍生相关工作

基于joke-dataset数据集，研究者已开展了一系列相关工作，包括幽默检测模型的构建、笑话生成算法的优化以及跨文化幽默比较研究。例如，有研究利用该数据集训练深度学习模型，实现了对笑话幽默程度的自动评估；还有研究通过对比不同来源的笑话，揭示了文化因素对幽默感知的影响。这些衍生工作不仅丰富了NLP领域的研究内容，也为幽默研究的跨学科发展提供了新的视角。

数据集最近研究