five

joke-dataset

收藏
github2018-02-10 更新2024-05-31 收录
下载链接:
https://github.com/abhirajD/joke-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含约208,000个英语笑话的数据集,数据来源于三个不同的网站,每个笑话以JSON格式存储,包含基本的body字段和根据来源不同的额外字段。

This dataset comprises approximately 208,000 English jokes, sourced from three distinct websites. Each joke is stored in JSON format, featuring a basic 'body' field along with additional fields that vary depending on the source.
创建时间:
2018-02-10
原始信息汇总

数据集概述

基本信息

  • 名称: A dataset of English plaintext jokes
  • 笑话数量: 约208,000个笑话
  • 来源: 三个不同的网站
  • 用途: 研究目的

文件详情

  • 文件名 | 笑话数量 | 字数
  • --- | --- | ---
  • reddit_jokes.json | 195K | 7.40M
  • stupidstuff.json | 3.77K | 396K
  • wocka.json | 10.0K | 1.11M
  • 总计 | 208K | 8.91M

数据格式

  • 格式: JSON文档
  • 结构: 每个文件包含一个笑话对象列表,每个笑话对象包含body字段,其他字段根据数据集不同而异。

数据集详细描述

reddit_jokes.json
  • 来源: /r/jokes
  • 时间: 截至2017年2月13日
  • 额外字段:
    • id: 提交ID
    • score: 帖子分数
    • title: 提交标题
stupidstuff.json
  • 来源: stupidstuff.org
  • 额外字段:
    • id: 页面ID
    • category: 类别
    • rating: 用户评分(1-5)
wocka.json
  • 来源: wocka.com
  • 额外字段:
    • id: 页面ID
    • category: 类别
    • title: 笑话标题

许可证

  • 使用限制: 仅供研究使用,不建议商业使用
  • 版权问题: 关于笑话的版权问题不明确,如有版权内容需移除,请联系GitHub。

引用信息

  • 引用格式: bibtex @misc{pungas, title={A dataset of English plaintext jokes.}, url={https://github.com/taivop/joke-dataset}, author={Pungas, Taivo}, year={2017}, publisher = {GitHub}, journal = {GitHub repository} }
搜集汇总
数据集介绍
main_image_url
构建方式
joke-dataset是一个英文 plaintext笑话数据集,其构建方法主要涉及从三个不同的来源进行数据抓取。这些来源包括Reddit的jokes子版块、stupidstuff.org以及wocka.com。总共包含了约208,000个笑话。
特点
该数据集的特点在于其来源的多样性,涵盖了不同风格和类别的笑话。数据以JSON格式存储,每个笑话对象至少包含一个`body`字段,部分笑话还包含标题、评分、类别等额外信息。值得注意的是,这些笑话的质量参差不齐,用户需要根据额外字段进行筛选以获取更佳的笑话。
使用方法
使用该数据集时,用户可以直接从提供的三个JSON文件中获取笑话数据。每个文件包含一个笑话对象的列表。用户可以根据笑话对象的额外字段,如评分或标题,对笑话进行排序和筛选,以便找到最合适的笑话。在使用数据集进行研究时,应遵循提供的许可协议,并在学术工作中正确引用数据集来源。
背景与挑战
背景概述
joke-dataset是一个英语文本笑话的数据集,由研究人员Taivo Pungas于2017年创建。该数据集通过抓取三个不同的来源,汇集了大约208,000个笑话。该数据集的建立旨在为学术研究提供资源,研究人员未对数据集中的内容主张所有权,亦不必然认可这些笑话。它在自然语言处理、文本分类和情感分析等领域具有一定的研究价值,对理解幽默和语言的细微差别有重要作用。
当前挑战
该数据集面临的挑战主要包括:1)笑话的质量参差不齐,缺乏一个统一的标准来衡量笑话的幽默程度;2)数据集来源的多样性和构建过程中的版权问题,尽管数据集用于研究目的,但笑话的版权归属并不明确,使用时需谨慎处理;3)数据集的构建过程中,如何有效抓取和清洗大量的文本数据,保持数据的准确性和完整性,也是一项技术挑战。
常用场景
经典使用场景
在自然语言处理与机器学习领域,joke-dataset 数据集的经典使用场景主要集中于文本分类、情感分析以及幽默度评估等任务。该数据集包含了大量的英文笑话文本,可用于训练模型以识别文本中的幽默元素,或对笑话进行分类和评分。
解决学术问题
joke-dataset 数据集解决了学术研究中对于幽默文本分析的迫切需求。研究者可以利用该数据集来训练和测试算法,以解决如何自动识别幽默、讽刺或双关语等语言现象的问题,这对于提高机器理解人类语言细微差别的能力具有重要意义。
衍生相关工作
基于joke-dataset 数据集,研究者们已经衍生出了一系列相关工作,如构建幽默检测模型、分析笑话结构特点、探索幽默与语言特征之间的关系等。这些工作不仅推动了自然语言处理领域的发展,也为心理学、社会学等相关学科提供了新的研究视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作