five

nothingiisreal/Reddit-Dirty-And-WritingPrompts

收藏
Hugging Face2024-07-18 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/nothingiisreal/Reddit-Dirty-And-WritingPrompts
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从Reddit的两个子论坛r/DirtyWritingPrompts(NSFW)和r/WritingPrompts(SFW)中整理的数据,数据量约为1.4GB,预计包含超过100,000行数据。数据集中包括提交内容、写作提示和评分(赞数减去踩数)。使用这些数据的主要目的是提高模型的创造性和趣味性,增加句子结构的多样性,增强描述和特异性。此外,数据集中还包括了所有提交标签及其含义,并进行了数据清洗,移除了少于400字符的提交和包含特定禁止字符串的提交。

This dataset consists of posts from r/DirtyWritingPrompts (NSFW) and r/WritingPrompts (SFW), cleaned and organized from the [Entirety of Reddit Dataset](https://huggingface.co/datasets/nothingiisreal/entirety_of_reddit/). It includes submissions, writing prompts, and scores (upvotes minus downvotes). The dataset is 1.4GB in size and estimated to have over 100,000 entries. The purpose of this dataset is to make models more creative, fun to interact with, and increase the diversity in sentence structures, language usage, and subjects. It also includes tags from the subreddits, allowing users to remove certain entries as needed. Additionally, the dataset excludes submissions with fewer than 400 characters and those containing specific banned strings.
提供机构:
nothingiisreal
原始信息汇总

数据集概述

数据集信息

  • 名称: r/DirtyWritingPrompts (NSFW) 和 r/WritingPrompts (SFW) 数据集
  • 来源: 从 Entirety of Reddit Dataset 中整理和清洗
  • 大小: 1.4GB
  • 估计行数: 100K+

数据内容

  • 包含:
    • 提交内容 (Submission)
    • 写作提示 (Writing prompt)
    • 评分 (Score, 即点赞数减去点踩数)

数据集特点

  • 创意性: 人类数据使模型更具创意
  • 趣味性: 使模型更具趣味性
  • 多样性: 增加句子结构、语言使用和主题的多样性
  • 描述性: 增强描述和具体性
  • 智能性: 使模型在创意和智能方面表现更佳

标签信息

  • 标签类型:
    • [WP]: Writing Prompt
    • [QP]: Quote inspired prompt
    • [MP]: Media Prompt
    • [CW]: Constrained Writing
    • [POETRY]: Erotic Poetry
    • [SF]: Script Format
    • [CS]: Continuous Writing
    • [EU]: Established Universe
    • [RF]: Reality Fiction
    • [PI]: Prompt Inspired
    • [CC]: Constructive criticism
    • [PM]: Prompt Me
    • [TT]: Theme Thursday

数据清洗

  • 移除条件:
    • 字符数少于400的提交内容
    • 包含特定禁止字符串的提交内容
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作