DirtyWritingPrompts

Hugging Face2024-06-30 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/nothingiisreal/DirtyWritingPrompts

下载链接

链接失效反馈

官方服务：

资源简介：

数据集包含11,000行来自r/DirtyWritingPrompts的条目，其中包括每个条目的评分（即点赞数减去点踩数）。建议移除最后1,000行，因为这些条目是按照点赞数从高到低排序的，其中最后几百条的点赞数为负。此外，数据集还排除了字符数少于400的故事。

This dataset contains 11,000 entries sourced from the r/DirtyWritingPrompts subreddit, with the score (calculated as upvotes minus downvotes) for each entry included. It is recommended to remove the final 1,000 entries, as these entries are sorted in descending order of upvote counts, and the final several hundred of these have negative upvote totals. Additionally, the dataset excludes stories with fewer than 400 characters.

创建时间：

2024-06-27

原始信息汇总

数据集概述

数据内容

数据集包含11,000行来自r/DirtyWritingPrompts的内容。
每行数据包括一个评分（即点赞数减去点踩数）。

数据处理

建议移除最后1,000行数据，因为这些数据从最高点赞到最低点赞排序，其中最后几百行样本的点赞数为负。
已移除字符数少于400的故事。

许可证

数据集遵循Apache 2.0许可证。

DirtyWritingPrompts数据集源自Reddit社区中的r/DirtyWritingPrompts板块，包含了超过11,000条数据记录。每条记录均包含用户的创作内容及其对应的评分（即点赞数减去点踩数）。为确保数据质量，构建过程中剔除了字符数少于400的短篇故事，并对数据进行了排序处理，使得高评分内容位于数据集的前端。

使用方法

使用DirtyWritingPrompts数据集时，建议首先关注高评分内容，以获取最具代表性的样本。由于数据集已按评分排序，研究者可直接从前端数据中提取高质量样本进行分析。若需进行更广泛的研究，可逐步扩展至低评分内容，但需注意其可能存在的偏差。此外，使用前应仔细阅读数据集的标签说明，确保研究内容符合伦理规范。

背景与挑战

背景概述

DirtyWritingPrompts数据集源自Reddit社区中的r/DirtyWritingPrompts板块，该板块以用户提交的创意写作提示为核心，鼓励用户围绕这些提示进行创作。数据集收录了11,000条写作提示及其对应的评分（即点赞数减去点踩数），旨在为自然语言生成和文本分析领域的研究提供丰富的素材。该数据集由匿名贡献者于2020年左右创建，主要面向成人内容相关的文本生成研究，尽管其内容较为敏感，但在探索用户生成内容的多样性和情感表达方面具有独特价值。

当前挑战

DirtyWritingPrompts数据集在应用与研究过程中面临多重挑战。首先，由于其内容涉及成人主题，数据的使用和传播需严格遵守伦理与法律规范，限制了其在公开研究中的广泛适用性。其次，数据集中包含大量用户生成内容，文本质量参差不齐，且部分提示的评分较低，可能影响模型的训练效果。此外，数据集的构建过程中，研究者需筛选出长度不足400字符的文本，这一过程可能导致部分有价值的信息丢失，进一步增加了数据清洗与预处理的复杂性。

常用场景

经典使用场景

DirtyWritingPrompts数据集主要应用于自然语言处理和文本生成领域，特别是在创意写作和故事生成任务中。该数据集包含了来自Reddit社区r/DirtyWritingPrompts的11,000条写作提示，每条提示都附有评分（即点赞数减去点踩数）。这些数据为研究人员提供了丰富的素材，用于训练和评估生成模型在特定主题下的表现。

解决学术问题

该数据集解决了在特定主题下生成高质量文本的挑战，尤其是在涉及敏感或成人内容的场景中。通过提供大量带有评分的写作提示，研究人员可以更好地理解用户偏好，并开发出能够生成符合特定受众需求的文本生成模型。此外，数据集还帮助研究者探索如何在生成内容时平衡创意与道德约束。

实际应用

在实际应用中，DirtyWritingPrompts数据集可用于开发个性化的写作助手或创意写作工具，帮助用户在特定主题下生成故事或内容。例如，该数据集可以用于训练生成模型，为成人内容创作者提供灵感或自动生成故事情节。此外，该数据集还可用于研究用户对敏感内容的反应，从而优化内容推荐系统。

数据集最近研究