five

euclaise/WritingPrompts_preferences

收藏
Hugging Face2023-12-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/euclaise/WritingPrompts_preferences
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - en license: mit size_categories: - 100K<n<1M task_categories: - text-generation pretty_name: WritingPrompts Preferences dataset_info: features: - name: post_text dtype: string - name: post_title dtype: string - name: post_scores dtype: int64 - name: comment_texts sequence: string - name: comment_scores sequence: int64 - name: comment_times sequence: string splits: - name: train num_bytes: 2340246558 num_examples: 265174 download_size: 1357734208 dataset_size: 2340246558 configs: - config_name: default data_files: - split: train path: data/train-* --- # Dataset Card for "WritingPrompts_preferences" Human preference data from r/WritingPrompts

language: - 英语 license: MIT许可证 size_categories: - 10万 < 样本量 < 100万 task_categories: - 文本生成 pretty_name: WritingPrompts偏好数据集 dataset_info: features: - name: post_text(帖子正文) dtype: 字符串 - name: post_title(帖子标题) dtype: 字符串 - name: post_scores(帖子得分) dtype: 64位整数 - name: comment_texts(评论文本序列) dtype: 字符串序列 - name: comment_scores(评论得分序列) dtype: 64位整数序列 - name: comment_times(评论时间序列) dtype: 字符串 splits: - name: train(训练集) num_bytes: 2340246558 字节 num_examples: 265174 download_size: 1357734208 字节 dataset_size: 2340246558 字节 configs: - config_name: default(默认配置) data_files: - split: train(训练集) path: data/train-* --- # "WritingPrompts_preferences"数据集卡片 本数据集包含来自Reddit社区r/WritingPrompts板块的人类偏好标注数据。
提供机构:
euclaise
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 许可证: MIT
  • 数据集大小: 100K<n<1M
  • 任务类别: 文本生成
  • 数据集名称: WritingPrompts Preferences

数据结构

特征

  • post_text: 字符串类型
  • post_title: 字符串类型
  • post_scores: 64位整数类型
  • comment_texts: 字符串序列
  • comment_scores: 64位整数序列
  • comment_times: 字符串序列

数据分割

  • 训练集:
    • 字节数: 2340246558
    • 样本数: 265174

下载信息

  • 下载大小: 1357734208
  • 数据集大小: 2340246558

配置

  • 配置名称: default
  • 数据文件:
    • 分割: 训练集
    • 路径: data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言生成领域,高质量的人类偏好数据对于模型优化至关重要。本数据集源自Reddit社区的r/WritingPrompts板块,通过系统化采集用户生成的故事提示及对应评论构建而成。数据收集过程聚焦于文本内容与互动指标,包括帖子标题、正文、评分以及评论文本、评分与时间戳,确保了数据来源的真实性与多样性。该构建方式充分体现了社区驱动的创作生态,为研究人类叙事偏好提供了结构化基础。
特点
本数据集的核心特点在于其丰富的多维度交互信息。每个样本不仅包含创作提示和故事文本,还整合了用户评分与时间序列数据,从而能够捕捉叙事内容的质量动态与社区反馈趋势。数据规模庞大,涵盖超过26万条样本,且以英文为主,适用于文本生成与偏好建模任务。其结构化特征支持对创作质量与受众偏好的深入分析,为自然语言处理研究提供了宝贵的实证资源。
使用方法
在应用层面,本数据集主要服务于文本生成模型的人类偏好对齐研究。使用者可基于帖子与评论的评分数据,训练奖励模型或优化生成策略,以提升叙事内容的用户接受度。数据处理时需注意时间戳的序列特性,结合评分信息分析偏好演变。该数据集可直接通过HuggingFace平台加载,适用于机器学习流程中的训练与评估阶段,为创造性写作辅助系统开发提供关键支持。
背景与挑战
背景概述
在自然语言生成领域,评估生成文本的质量与人类偏好对齐一直是核心研究议题。euclaise/WritingPrompts_preferences数据集于近年由研究社区构建,旨在从Reddit的r/WritingPrompts子论坛中提取人类对创意写作的偏好数据。该数据集通过收集帖子文本、标题、评分及对应的评论内容与评分,为训练和评估文本生成模型提供了丰富的监督信号。其核心研究问题聚焦于如何利用大规模在线社区的互动数据,建模人类对叙事性文本的审美偏好,从而推动可控文本生成与强化学习对齐方法的发展,对创意写作辅助系统与对话生成领域产生了显著影响。
当前挑战
该数据集致力于解决文本生成中的人类偏好对齐挑战,即如何使模型输出更符合人类审美与叙事逻辑的文本。具体挑战包括:从嘈杂的在线论坛数据中提取可靠偏好信号,因评论评分可能受时间、社区偏见等因素干扰;处理长文本叙事的结构一致性建模,因创意写作涉及复杂情节与角色发展;以及平衡数据规模与标注质量,确保偏好标签的准确性与代表性。在构建过程中,挑战主要源于数据清洗与对齐,需从非结构化的Reddit帖子中分离帖子与评论,并处理缺失或异常的评分数据,同时维护文本的完整性与时序关系。
常用场景
经典使用场景
在自然语言处理领域,特别是文本生成任务中,euclaise/WritingPrompts_preferences数据集常被用于训练和评估基于人类偏好的生成模型。该数据集源自Reddit的r/WritingPrompts社区,包含了丰富的创意写作提示及对应的用户评论与评分,为研究者提供了模拟人类创作偏好的结构化数据。通过分析帖子文本、标题、评分以及评论内容,模型能够学习到如何生成更符合人类审美和叙事逻辑的文本,从而提升生成内容的质量和相关性。
实际应用
在实际应用中,euclaise/WritingPrompts_preferences数据集可支撑创意写作辅助工具、内容生成平台及教育软件的开发。例如,在写作助手或故事生成系统中,利用该数据训练模型能够根据用户偏好自动推荐或续写情节,增强交互体验。此外,在数字营销领域,它有助于生成更贴合受众兴趣的广告文案或社交媒体内容,提升传播效果。这些应用不仅优化了人机协作效率,还促进了个性化内容创作的普及。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在偏好学习和文本生成优化方向。例如,有研究利用其评论评分数据训练奖励模型,以改进强化学习框架下的故事生成策略;另一些工作则结合提示文本和用户反馈,开发多任务学习模型来增强生成内容的多样性和一致性。这些成果不仅推动了如ChatGPT等大型语言模型的偏好对齐技术发展,还为后续数据集如Anthropic's HH-RLHF提供了灵感,深化了人类反馈在生成任务中的应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作