joke-dataset

github2018-02-10 更新2024-05-31 收录

下载链接：

https://github.com/abhirajD/joke-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含约208,000个英语笑话的数据集，数据来源于三个不同的网站，每个笑话以JSON格式存储，包含基本的body字段和根据来源不同的额外字段。

This dataset comprises approximately 208,000 English jokes, sourced from three distinct websites. Each joke is stored in JSON format, featuring a basic 'body' field along with additional fields that vary depending on the source.

创建时间：

2018-02-10

原始信息汇总

数据集概述

基本信息

名称: A dataset of English plaintext jokes
笑话数量: 约208,000个笑话
来源: 三个不同的网站
用途: 研究目的

文件详情

文件名 | 笑话数量 | 字数
--- | --- | ---
reddit_jokes.json | 195K | 7.40M
stupidstuff.json | 3.77K | 396K
wocka.json | 10.0K | 1.11M
总计 | 208K | 8.91M

数据格式

格式: JSON文档
结构: 每个文件包含一个笑话对象列表，每个笑话对象包含body字段，其他字段根据数据集不同而异。

数据集详细描述

reddit_jokes.json

来源: /r/jokes
时间: 截至2017年2月13日
额外字段:
- id: 提交ID
- score: 帖子分数
- title: 提交标题

stupidstuff.json

来源: stupidstuff.org
额外字段:
- id: 页面ID
- category: 类别
- rating: 用户评分（1-5）

wocka.json

来源: wocka.com
额外字段:
- id: 页面ID
- category: 类别
- title: 笑话标题

许可证

使用限制: 仅供研究使用，不建议商业使用
版权问题: 关于笑话的版权问题不明确，如有版权内容需移除，请联系GitHub。

引用信息

引用格式: bibtex @misc{pungas, title={A dataset of English plaintext jokes.}, url={https://github.com/taivop/joke-dataset}, author={Pungas, Taivo}, year={2017}, publisher = {GitHub}, journal = {GitHub repository} }

搜集汇总

数据集介绍

构建方式

joke-dataset是一个英文 plaintext笑话数据集，其构建方法主要涉及从三个不同的来源进行数据抓取。这些来源包括Reddit的jokes子版块、stupidstuff.org以及wocka.com。总共包含了约208,000个笑话。

特点

该数据集的特点在于其来源的多样性，涵盖了不同风格和类别的笑话。数据以JSON格式存储，每个笑话对象至少包含一个`body`字段，部分笑话还包含标题、评分、类别等额外信息。值得注意的是，这些笑话的质量参差不齐，用户需要根据额外字段进行筛选以获取更佳的笑话。

使用方法

使用该数据集时，用户可以直接从提供的三个JSON文件中获取笑话数据。每个文件包含一个笑话对象的列表。用户可以根据笑话对象的额外字段，如评分或标题，对笑话进行排序和筛选，以便找到最合适的笑话。在使用数据集进行研究时，应遵循提供的许可协议，并在学术工作中正确引用数据集来源。

背景与挑战

背景概述

joke-dataset是一个英语文本笑话的数据集，由研究人员Taivo Pungas于2017年创建。该数据集通过抓取三个不同的来源，汇集了大约208,000个笑话。该数据集的建立旨在为学术研究提供资源，研究人员未对数据集中的内容主张所有权，亦不必然认可这些笑话。它在自然语言处理、文本分类和情感分析等领域具有一定的研究价值，对理解幽默和语言的细微差别有重要作用。

当前挑战

该数据集面临的挑战主要包括：1)笑话的质量参差不齐，缺乏一个统一的标准来衡量笑话的幽默程度；2)数据集来源的多样性和构建过程中的版权问题，尽管数据集用于研究目的，但笑话的版权归属并不明确，使用时需谨慎处理；3)数据集的构建过程中，如何有效抓取和清洗大量的文本数据，保持数据的准确性和完整性，也是一项技术挑战。

常用场景

经典使用场景

在自然语言处理与机器学习领域，joke-dataset 数据集的经典使用场景主要集中于文本分类、情感分析以及幽默度评估等任务。该数据集包含了大量的英文笑话文本，可用于训练模型以识别文本中的幽默元素，或对笑话进行分类和评分。

解决学术问题

joke-dataset 数据集解决了学术研究中对于幽默文本分析的迫切需求。研究者可以利用该数据集来训练和测试算法，以解决如何自动识别幽默、讽刺或双关语等语言现象的问题，这对于提高机器理解人类语言细微差别的能力具有重要意义。

衍生相关工作

基于joke-dataset 数据集，研究者们已经衍生出了一系列相关工作，如构建幽默检测模型、分析笑话结构特点、探索幽默与语言特征之间的关系等。这些工作不仅推动了自然语言处理领域的发展，也为心理学、社会学等相关学科提供了新的研究视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集