five

ZSvedic/humor-chains

收藏
Hugging Face2024-07-09 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ZSvedic/humor-chains
下载链接
链接失效反馈
官方服务:
资源简介:
“humor-chains”数据集是一个经过机器筛选的Reddit提交及其回复的集合,这些提交和回复来自幽默相关的子版块,并且获得了最多的点赞。通常,一个幽默链是指一个简短的帖子引发了一个或多个回复,这些回复被Reddit用户认为是有趣的。换句话说,一些条目可能包含不适合工作场所的内容、时事或内部笑话。数据集适用于文本生成任务,特别是用于微调GPT模型。
提供机构:
ZSvedic
原始信息汇总

数据集概述

基本信息

  • 数据集名称:humor-chains
  • 任务类别:text-generation
  • 语言:en
  • 数据集大小:1K<n<10K
  • 许可证:CC-BY-4.0

数据集内容

  • 数据来源:Reddit上幽默相关子版块的最受欢迎提交及其回复。
  • 数据特点:包含一系列幽默相关的帖子及其回复,部分内容可能包含NSFW、时事或内部笑话。

数据集创建过程

  1. 数据收集:未直接使用Reddit API,而是使用2005-06至2023-12的Reddit旧数据转储。
  2. 数据筛选:从幽默相关的子版块中筛选出最受欢迎的帖子及其回复。
  3. 筛选标准
    • 帖子:至少10个赞,总长度小于256个字符,无删除或移除标记,不包含外部链接或媒体。
    • 回复:至少5个赞,总长度小于256个字符,仅包含最高赞的回复。
  4. 幽默检测:使用本地模型Humor-Research/humor-detection-comb-23进一步筛选,移除未被识别为幽默的内容。

数据集用途

  • 格式:适用于GPT模型的微调,如Axolotl中的"sharegpt"格式。

数据集维护者

  • 维护者:Zeljko Svedic

引用信息

@misc{ZSvedic_humor_chains, title={humor-chains}, author={Zeljko Svedic}, year={2024}, url={https://huggingface.co/datasets/ZSvedic/humor-chains/blob/main/README.md} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作