shuttie/dadjokes

Name: shuttie/dadjokes
Creator: shuttie
Published: 2023-10-10 09:40:50
License: 暂无描述

Hugging Face2023-10-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/shuttie/dadjokes

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来源于Kaggle的Reddit Dad Jokes，由Oktay Ozturk生成并进行了修改。只保留了获得5个以上投票的笑话，并将每个笑话分为基础和笑点两部分。数据集格式为CSV，分为训练集（52000个样本）和测试集（1400个样本），可用于笑话预测任务。

This dataset is sourced from Kaggle's Reddit Dad Jokes, and was generated and modified by Oktay Ozturk. Only jokes that received over 5 upvotes were retained, and each joke is split into two parts: the setup and the punchline. The dataset is in CSV format, divided into a training set with 52,000 samples and a test set with 1,400 samples, which can be used for joke prediction tasks.

提供机构：

shuttie

原始信息汇总

Dad Jokes 数据集

概述

该数据集源自 Kaggle Reddit Dad Jokes，由 Oktay Ozturk 创建，并进行了以下修改：

仅包含获得 5 票以上的笑话，以避免低票笑话的质量问题。
通过一系列启发式方法，将每个笑话分为基础部分和笑点部分。

格式

数据集以 CSV 格式提供，并分为训练集和测试集：

训练集：52000 个样本
测试集：1400 个样本

示例数据

csv "question","response" "I asked my priest how he gets holy water","He said it’s just regular water, he just boils the hell out of it" "Life Hack: If you play My Chemical Romance loud enough in your yard","your grass will cut itself" "Why did Mr. Potato Head get pulled over","He was baked" "How did the Mexican John Wick taste his Burrito","He took Juan Lick"

用途

该数据集可用于基于基础/笑点分割的笑话预测任务，适用于任何大型语言模型（LLM）。

许可证

Apache 2.0。

搜集汇总

数据集介绍

构建方式

在幽默计算领域，数据集shuttie/dadjokes的构建体现了对网络幽默文本的精细化处理。该数据集源自Kaggle平台上的Reddit冷笑话集合，经过筛选仅保留获赞数超过五条的内容，以过滤低质量文本。随后，通过启发式规则将每个笑话拆分为基础部分与笑点部分，形成结构化的问答对。这一过程不仅提升了数据的规范性，也为后续的模型训练提供了清晰的语义分割。

特点

该数据集的核心特点在于其独特的双部分结构，每个笑话被明确划分为问题与回应，模拟了人类幽默的递进表达。数据规模适中，包含超过五万条训练样本和一千四百条测试样本，覆盖了多样化的冷笑话题材。格式上采用CSV存储，确保了易用性与兼容性，同时所有内容均为英文，聚焦于跨文化幽默的语言分析。这种设计使得数据集特别适用于自然语言处理任务中的笑话预测与生成研究。

使用方法

在应用层面，shuttie/dadjokes数据集主要用于支持大型语言模型的幽默理解与生成任务。研究者可直接加载CSV文件，利用问题部分作为输入，训练模型预测对应的笑点回应，从而评估模型的语义推理与创意表达能力。数据集的标准划分便于进行监督学习，测试集可用于验证模型泛化性能。此外，其简洁的格式允许无缝集成到多种机器学习框架中，为幽默计算领域的实验提供了高效基础。

背景与挑战

背景概述

在自然语言处理与计算幽默学交叉领域，幽默生成与理解一直是极具挑战性的研究方向。Dad Jokes数据集由Oktay Ozturk于Kaggle平台创建，后经shuttie整理优化并发布于HuggingFace平台，其核心研究问题聚焦于通过结构化数据支持笑话的自动生成与预测任务。该数据集精选了Reddit社区中高投票的‘爸爸笑话’，通过启发式方法将每个笑话分割为基础部分与妙语部分，为大型语言模型提供了高质量的幽默语料。这一工作不仅推动了对话系统与创意文本生成的发展，也为探索幽默的认知机制与计算建模提供了重要数据基础。

当前挑战

Dad Jokes数据集面临的挑战主要体现在两个方面：在领域问题层面，幽默的自动生成与理解本身具有高度主观性和文化依赖性，模型需要捕捉微妙的双关、反讽与预期违背等复杂语义结构，而当前自然语言处理技术在此类非字面含义推理上仍存在局限。在构建过程中，数据筛选与分割带来了显著困难，原始笑话的质量参差不齐，需通过投票阈值过滤低质量内容；同时，将笑话准确拆分为基础与妙语部分依赖于启发式规则，这一过程可能引入分割误差，影响后续任务的模型性能与泛化能力。

常用场景

经典使用场景

在自然语言处理领域，幽默生成与理解是极具挑战性的研究方向。shuttie/dadjokes数据集以其独特的双部分结构——基础句与笑点句分离，为笑话预测任务提供了标准化的实验平台。研究者常利用该数据集训练大型语言模型，通过基础句预测笑点句，从而评估模型在语义连贯性、创意联想及幽默感知方面的能力。这种设置不仅简化了任务复杂度，还促进了模型在生成式任务中的性能比较与优化。

衍生相关工作

围绕该数据集，学术界已衍生出多项经典研究工作。例如，基于其双部分结构的序列到序列模型被广泛用于幽默生成评估，促进了对抗训练、强化学习等先进方法在创意文本生成中的应用。同时，该数据集常作为基准测试集，出现在自然语言生成竞赛与对比研究中，激励了跨模型幽默一致性、多样性等细粒度指标的深入探讨。

数据集最近研究