ZSvedic/humor-chains
收藏Hugging Face2024-07-09 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ZSvedic/humor-chains
下载链接
链接失效反馈官方服务:
资源简介:
“humor-chains”数据集是一个经过机器筛选的Reddit提交及其回复的集合,这些提交和回复来自幽默相关的子版块,并且获得了最多的点赞。通常,一个幽默链是指一个简短的帖子引发了一个或多个回复,这些回复被Reddit用户认为是有趣的。换句话说,一些条目可能包含不适合工作场所的内容、时事或内部笑话。数据集适用于文本生成任务,特别是用于微调GPT模型。
提供机构:
ZSvedic
原始信息汇总
数据集概述
基本信息
- 数据集名称:humor-chains
- 任务类别:text-generation
- 语言:en
- 数据集大小:1K<n<10K
- 许可证:CC-BY-4.0
数据集内容
- 数据来源:Reddit上幽默相关子版块的最受欢迎提交及其回复。
- 数据特点:包含一系列幽默相关的帖子及其回复,部分内容可能包含NSFW、时事或内部笑话。
数据集创建过程
- 数据收集:未直接使用Reddit API,而是使用2005-06至2023-12的Reddit旧数据转储。
- 数据筛选:从幽默相关的子版块中筛选出最受欢迎的帖子及其回复。
- 筛选标准:
- 帖子:至少10个赞,总长度小于256个字符,无删除或移除标记,不包含外部链接或媒体。
- 回复:至少5个赞,总长度小于256个字符,仅包含最高赞的回复。
- 幽默检测:使用本地模型Humor-Research/humor-detection-comb-23进一步筛选,移除未被识别为幽默的内容。
数据集用途
- 格式:适用于GPT模型的微调,如Axolotl中的"sharegpt"格式。
数据集维护者
- 维护者:Zeljko Svedic
引用信息
@misc{ZSvedic_humor_chains, title={humor-chains}, author={Zeljko Svedic}, year={2024}, url={https://huggingface.co/datasets/ZSvedic/humor-chains/blob/main/README.md} }



