five

joke-dataset

收藏
github2024-05-21 更新2024-05-31 收录
下载链接:
https://github.com/taivop/joke-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
一个包含约208,000条英语纯文本笑话的数据集,从三个不同来源抓取。该数据集主要用于研究目的,不涉及商业使用。

A dataset comprising approximately 208,000 English plain text jokes, scraped from three distinct sources. This dataset is primarily intended for research purposes and is not involved in commercial use.
创建时间:
2017-02-14
原始信息汇总

数据集概述

数据集名称

A dataset of English plaintext jokes

数据集大小

  • 总笑话数量:约208,000个
  • 总令牌数:8.91M

数据来源

  • reddit_jokes.json:来自Reddit的/r/jokes子论坛,包含195,000个笑话。
  • stupidstuff.json:来自stupidstuff.org,包含3,770个笑话。
  • wocka.json:来自wocka.com,包含10,000个笑话。

文件格式

  • 每个文件为JSON格式,包含一系列笑话对象。
  • 每个笑话对象包含body字段,其他字段根据数据源不同而异。

数据字段

reddit_jokes.json
  • id: 提交ID
  • score: 帖子得分
  • title: 提交标题
stupidstuff.json
  • id: 页面ID
  • category: 类别
  • rating: 用户评分(1-5分)
wocka.json
  • id: 页面ID
  • category: 类别
  • title: 笑话标题

许可与使用

  • 数据集仅供研究使用,不建议商业使用。
  • 版权问题不明确,如需移除版权内容,请联系GitHub。

引用信息

bibtex @misc{pungas, title={A dataset of English plaintext jokes.}, url={https://github.com/taivop/joke-dataset}, author={Pungas, Taivo}, year={2017}, publisher = {GitHub}, journal = {GitHub repository} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于从三个主要来源抓取的英语纯文本笑话,包括Reddit的/r/jokes子版块、stupidstuff.org以及wocka.com。每个来源的数据分别存储在独立的JSON文件中,总计约208,000条笑话,涵盖了广泛的幽默内容。数据抓取过程中,保留了每条笑话的原始标识符、评分、标题及类别等元数据,以支持后续的分析和研究。
特点
此数据集的显著特点在于其规模庞大且来源多样,涵盖了从社交媒体到专业笑话网站的广泛内容。每条笑话均包含详细的元数据,如评分和类别,这为研究人员提供了丰富的分析维度。此外,数据集的结构化格式使得数据处理和检索变得高效便捷,适合用于自然语言处理和幽默分析等领域的研究。
使用方法
使用该数据集时,用户可以通过解析JSON文件直接访问笑话内容及其相关元数据。建议根据研究需求筛选特定类别或评分的笑话,以提高分析的针对性。数据集的灵活性允许用户进行多种类型的分析,如幽默感知的机器学习模型训练或跨文化幽默比较研究。在使用过程中,应遵循非商业用途的许可协议,并确保引用来源以符合学术规范。
背景与挑战
背景概述
joke-dataset,一个包含约208,000条英语笑话的数据集,由Taivo Pungas于2017年创建。该数据集主要用于研究目的,汇集了来自Reddit、stupidstuff.org和wocka.com三个来源的笑话。其核心研究问题涉及笑话的分类、评分及幽默感的量化分析,对自然语言处理和幽默研究领域具有重要影响。通过提供丰富的笑话资源,该数据集为研究人员提供了探索人类幽默机制的宝贵素材。
当前挑战
joke-dataset在构建过程中面临多重挑战。首先,笑话的版权问题复杂,数据集的非商业使用限制了其应用范围。其次,笑话的幽默感主观性强,难以量化,导致数据标注和分类的难度增加。此外,不同来源的笑话格式和质量参差不齐,整合和标准化过程复杂。最后,数据集的静态特性(自2022年12月起不再更新)限制了其时效性和应用的广泛性。
常用场景
经典使用场景
在自然语言处理领域,joke-dataset 数据集的经典使用场景主要集中在幽默检测与生成研究中。研究者们利用该数据集训练模型,以识别和分类不同类型的笑话,从而提升机器对幽默的理解能力。此外,该数据集也被广泛应用于生成式模型,如生成对抗网络(GANs)和变分自编码器(VAEs),以生成新的、具有幽默感的文本内容。
解决学术问题
joke-dataset 数据集在学术研究中解决了幽默理解与生成的关键问题。通过提供大量结构化的笑话数据,研究者能够深入探讨幽默的构成要素及其背后的认知机制。这不仅有助于提升机器对幽默的识别和生成能力,还为心理学、认知科学等领域的研究提供了宝贵的数据支持,推动了跨学科的学术交流与合作。
衍生相关工作
基于 joke-dataset 数据集,研究者们开展了多项经典工作。例如,有研究利用该数据集训练深度学习模型,成功实现了笑话的自动分类和生成。此外,还有学者通过分析数据集中的笑话结构,提出了新的幽默理论模型,进一步推动了幽默研究的理论发展。这些衍生工作不仅丰富了自然语言处理的研究内容,也为相关领域的应用提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作