euclaise/WritingPrompts_preferences

Name: euclaise/WritingPrompts_preferences
Creator: euclaise
Published: 2023-12-25 13:57:46
License: 暂无描述

Hugging Face2023-12-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/euclaise/WritingPrompts_preferences

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en license: mit size_categories: - 100K<n<1M task_categories: - text-generation pretty_name: WritingPrompts Preferences dataset_info: features: - name: post_text dtype: string - name: post_title dtype: string - name: post_scores dtype: int64 - name: comment_texts sequence: string - name: comment_scores sequence: int64 - name: comment_times sequence: string splits: - name: train num_bytes: 2340246558 num_examples: 265174 download_size: 1357734208 dataset_size: 2340246558 configs: - config_name: default data_files: - split: train path: data/train-* --- # Dataset Card for "WritingPrompts_preferences" Human preference data from r/WritingPrompts

language: - 英语 license: MIT许可证 size_categories: - 10万 < 样本量 < 100万 task_categories: - 文本生成 pretty_name: WritingPrompts偏好数据集 dataset_info: features: - name: post_text（帖子正文） dtype: 字符串 - name: post_title（帖子标题） dtype: 字符串 - name: post_scores（帖子得分） dtype: 64位整数 - name: comment_texts（评论文本序列） dtype: 字符串序列 - name: comment_scores（评论得分序列） dtype: 64位整数序列 - name: comment_times（评论时间序列） dtype: 字符串 splits: - name: train（训练集） num_bytes: 2340246558 字节 num_examples: 265174 download_size: 1357734208 字节 dataset_size: 2340246558 字节 configs: - config_name: default（默认配置） data_files: - split: train（训练集） path: data/train-* --- # "WritingPrompts_preferences"数据集卡片本数据集包含来自Reddit社区r/WritingPrompts板块的人类偏好标注数据。

提供机构：

euclaise

原始信息汇总

数据集概述

基本信息

语言: 英语
许可证: MIT
数据集大小: 100K<n<1M
任务类别: 文本生成
数据集名称: WritingPrompts Preferences

数据结构

特征

post_text: 字符串类型
post_title: 字符串类型
post_scores: 64位整数类型
comment_texts: 字符串序列
comment_scores: 64位整数序列
comment_times: 字符串序列

数据分割

训练集:
- 字节数: 2340246558
- 样本数: 265174

下载信息

下载大小: 1357734208
数据集大小: 2340246558

配置

配置名称: default
数据文件:
- 分割: 训练集
- 路径: data/train-*

搜集汇总

数据集介绍

构建方式

在自然语言生成领域，高质量的人类偏好数据对于模型优化至关重要。本数据集源自Reddit社区的r/WritingPrompts板块，通过系统化采集用户生成的故事提示及对应评论构建而成。数据收集过程聚焦于文本内容与互动指标，包括帖子标题、正文、评分以及评论文本、评分与时间戳，确保了数据来源的真实性与多样性。该构建方式充分体现了社区驱动的创作生态，为研究人类叙事偏好提供了结构化基础。

特点

本数据集的核心特点在于其丰富的多维度交互信息。每个样本不仅包含创作提示和故事文本，还整合了用户评分与时间序列数据，从而能够捕捉叙事内容的质量动态与社区反馈趋势。数据规模庞大，涵盖超过26万条样本，且以英文为主，适用于文本生成与偏好建模任务。其结构化特征支持对创作质量与受众偏好的深入分析，为自然语言处理研究提供了宝贵的实证资源。

使用方法

在应用层面，本数据集主要服务于文本生成模型的人类偏好对齐研究。使用者可基于帖子与评论的评分数据，训练奖励模型或优化生成策略，以提升叙事内容的用户接受度。数据处理时需注意时间戳的序列特性，结合评分信息分析偏好演变。该数据集可直接通过HuggingFace平台加载，适用于机器学习流程中的训练与评估阶段，为创造性写作辅助系统开发提供关键支持。

背景与挑战

背景概述

在自然语言生成领域，评估生成文本的质量与人类偏好对齐一直是核心研究议题。euclaise/WritingPrompts_preferences数据集于近年由研究社区构建，旨在从Reddit的r/WritingPrompts子论坛中提取人类对创意写作的偏好数据。该数据集通过收集帖子文本、标题、评分及对应的评论内容与评分，为训练和评估文本生成模型提供了丰富的监督信号。其核心研究问题聚焦于如何利用大规模在线社区的互动数据，建模人类对叙事性文本的审美偏好，从而推动可控文本生成与强化学习对齐方法的发展，对创意写作辅助系统与对话生成领域产生了显著影响。

当前挑战

该数据集致力于解决文本生成中的人类偏好对齐挑战，即如何使模型输出更符合人类审美与叙事逻辑的文本。具体挑战包括：从嘈杂的在线论坛数据中提取可靠偏好信号，因评论评分可能受时间、社区偏见等因素干扰；处理长文本叙事的结构一致性建模，因创意写作涉及复杂情节与角色发展；以及平衡数据规模与标注质量，确保偏好标签的准确性与代表性。在构建过程中，挑战主要源于数据清洗与对齐，需从非结构化的Reddit帖子中分离帖子与评论，并处理缺失或异常的评分数据，同时维护文本的完整性与时序关系。

常用场景

经典使用场景

在自然语言处理领域，特别是文本生成任务中，euclaise/WritingPrompts_preferences数据集常被用于训练和评估基于人类偏好的生成模型。该数据集源自Reddit的r/WritingPrompts社区，包含了丰富的创意写作提示及对应的用户评论与评分，为研究者提供了模拟人类创作偏好的结构化数据。通过分析帖子文本、标题、评分以及评论内容，模型能够学习到如何生成更符合人类审美和叙事逻辑的文本，从而提升生成内容的质量和相关性。

实际应用

在实际应用中，euclaise/WritingPrompts_preferences数据集可支撑创意写作辅助工具、内容生成平台及教育软件的开发。例如，在写作助手或故事生成系统中，利用该数据训练模型能够根据用户偏好自动推荐或续写情节，增强交互体验。此外，在数字营销领域，它有助于生成更贴合受众兴趣的广告文案或社交媒体内容，提升传播效果。这些应用不仅优化了人机协作效率，还促进了个性化内容创作的普及。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在偏好学习和文本生成优化方向。例如，有研究利用其评论评分数据训练奖励模型，以改进强化学习框架下的故事生成策略；另一些工作则结合提示文本和用户反馈，开发多任务学习模型来增强生成内容的多样性和一致性。这些成果不仅推动了如ChatGPT等大型语言模型的偏好对齐技术发展，还为后续数据集如Anthropic's HH-RLHF提供了灵感，深化了人类反馈在生成任务中的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集