human-writing-dpo

Hugging Face2025-06-08 更新2025-06-09 收录

创意写作

文本质量评估

数据链接：

https://huggingface.co/datasets/nbeerbower/human-writing-dpo 数据链接链接失效反馈

官方服务：

资源简介：

这是一个从Reddit的WritingPrompts和DirtyWritingPrompts板块衍生出的高质量创意写作偏好数据集。数据集包括写作提示、高质量人类创作的作品、质量较低的故事完成部分、Reddit点赞数和LLM评判的总体分数。经过一系列筛选和清洗过程，最终保留了平均分数为8.9的3000个高质量样本。

This is a high-quality creative writing preference dataset derived from Reddit's WritingPrompts and DirtyWritingPrompts subreddits. The dataset includes writing prompts, high-quality human-written works, lower-quality story completions, Reddit upvote counts, and overall scores evaluated by large language models (LLMs). After a series of filtering and cleaning processes, 3000 high-quality samples with an average score of 8.9 were finally retained.

创建时间：

2025-06-05

搜集汇总

数据集介绍

构建方式

在创意写作领域，高质量数据集的构建需兼顾内容质量与结构完整性。该数据集源自Reddit写作社区，通过多阶段筛选流程构建：首先剔除含格式标签的提示，保留Reddit评分≥15的条目；随后清理含元评论、URL及过短回复的噪声数据；最终由GPT-4.1-mini从创意性、连贯性等五个维度进行质量评估，精选出综合评分8.9以上的优质样本，并进一步过滤结构性冗余内容，确保数据纯净度。

特点

本数据集的核心特征体现在其双重评分机制与内容分层设计。每条数据包含人类创作的高质量故事（chosen）与模型生成的次优故事（rejected），形成直接对比样本。Reddit评分提供社区反馈维度，而LLM判定的综合评分则从文学性角度量化质量，二者相关性仅0.092，揭示社区评价与专业评估的差异性。数据集涵盖2620条清洗后的样本，兼具创作多样性与质量可控性。

使用方法

该数据集适用于直接偏好优化（DPO）训练场景。使用者可加载标准格式数据，其中prompt字段作为创作提示，chosen和rejected分别作为正负样本对。建议结合整体评分（overall_score）进行样本加权训练，以强化模型对高质量文本的判别能力。对于NSFW内容，需根据应用场景实施额外过滤机制。数据可直接接入主流机器学习框架，支持创意写作模型的质量调优与偏好对齐研究。

背景与挑战

背景概述

自然语言生成领域近年来对高质量人类创作文本的需求日益增长，human-writing-dpo数据集应运而生。该数据集由研究者nbeerbower于2024年构建，基于Reddit平台的r/WritingPrompts和r/DirtyWritingPrompts子论坛内容，专门针对创意写作的偏好学习任务。通过融合社交媒体众包数据与大型语言模型生成样本，该数据集为文本生成质量评估提供了重要基准，推动了直接偏好优化（DPO）方法在创造性写作任务中的应用，对提升人工智能生成文本的文学性和人类偏好对齐具有显著价值。

当前挑战

该数据集核心挑战在于解决创造性文本生成的质量评估与偏好对齐问题。具体而言，需要克服Reddit社区投票机制与真实写作质量之间的弱相关性（皮尔逊系数仅0.092），以及处理用户生成内容中存在的结构化噪声（如分段标记、作者声明等）。在构建过程中，面临内容清洗的复杂性，需剔除38%的含结构垃圾样本，同时通过多维度质量评估体系（创造性、连贯性、提示遵循度等）确保数据纯净度，最终在3000个初始样本中保留2620个高质量样本，保留率达87.3%。

常用场景

经典使用场景

在自然语言生成领域，human-writing-dpo数据集为直接偏好优化算法提供了高质量的创意写作对比样本。该数据集通过精心筛选的写作提示及其对应的人类优质创作与模型生成文本，为训练语言模型区分写作质量差异提供了关键素材。研究者可借助该数据集提升模型对创造性文本的审美判断能力，特别是在故事连贯性、创意表达和情感 engagement 等维度实现精准优化。

实际应用

该数据集可广泛应用于创意写作辅助系统的开发，帮助构建能够生成符合人类偏好的故事文本的AI助手。教育科技领域可将其用于写作教学系统的质量反馈模块，为学习者提供符合专业标准的写作范例。内容创作平台亦可集成其评估机制，自动筛选高质量用户生成内容，提升平台整体内容水准。

衍生相关工作

基于该数据集衍生的研究主要集中在偏好学习算法的改进领域。相关工作包括开发新型DPO损失函数以适应创意文本的细微质量差异，以及构建多模态写作评估框架。部分研究还探索了将该数据集的评估体系迁移至其他创意写作领域，如诗歌生成和剧本创作，形成了跨体裁的文本质量评估范式。

以上内容由遇见数据集搜集并总结生成