Gryphe/Opus-WritingPrompts
收藏Hugging Face2024-06-02 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/Gryphe/Opus-WritingPrompts
下载链接
链接失效反馈官方服务:
资源简介:
---
license: unknown
task_categories:
- text-generation
language:
- en
tags:
- synthetic
- not-for-all-audiences
pretty_name: Opus Writing Prompts
size_categories:
- 1K<n<10K
---
## Opus Writing Prompts
This is a dataset containing 3008 short stories, generated by an unrestrained Claude Opus using Reddit's Writing Prompts as a source. Each sample is generally between 4000-6000 characters long.
These stories were thoroughly cleaned and then further enriched with a title and a series of applicable genres.
**Disclaimer:** This dataset is extremely varied and includes erotica. You have been warned.
**Three files are included:**
- A ShareGPT dataset, ready to be used for training.
- A "raw" version, containing prompt/title/genre/story columns.
- **2024-05-28:** I've included a GPT 3.5 generated version in a similar format as the raw file, meant to act as a negative counterpart for KTO training purposes.
- **2024-06-02:** Another Opus generated version was added, using the same writing prompts. These have been checked and all are distinct enough to be used as an expansion for the existing set.
If you find any errors, please let me know!
license: 未知
task_categories:
- 文本生成
language:
- 英语
tags:
- 合成数据集
- 不适用于全年龄段受众
pretty_name: Opus写作提示
size_categories:
- 1K<n<10K
---
## Opus写作提示
本数据集共收录3008篇短篇故事,由无约束版本的Claude Opus以Reddit平台的Writing Prompts子版块内容为素材生成。单条样本的字符长度通常介于4000至6000之间。
所有故事均经过全面清洗,并进一步丰富了标题与一系列适配的题材标签。
**免责声明:** 本数据集内容品类繁杂,包含色情描写,请使用者知悉。
**包含三个文件:**
- 一个ShareGPT格式数据集,可直接用于模型训练。
- 一份"原始"版本文件,包含提示词、标题、题材、故事四列数据。
- **2024年5月28日更新:** 新增GPT 3.5生成的版本,格式与原始文件一致,旨在作为KTO训练的负向对照样本。
- **2024年6月2日更新:** 新增另一版由Opus生成的故事集,仍采用原写作提示素材。经核查,所有新增内容均具备足够独特性,可作为现有数据集的扩展集使用。
若您发现任何错误,欢迎反馈告知!
提供机构:
Gryphe
原始信息汇总
Opus Writing Prompts 数据集概述
基本信息
- 许可协议: 未知
- 任务类别: 文本生成
- 语言: 英语
- 标签: 合成数据, 不适合所有受众
- 美观名称: Opus Writing Prompts
- 数据规模: 1K<n<10K
数据集描述
- 包含3008篇短篇故事,由不受限制的Claude Opus生成,数据来源为Reddit的写作提示。
- 每篇故事长度大约在4000-6000个字符之间。
- 故事经过彻底清洗,并增加了标题和适用的类型标签。
注意事项
- 数据集内容极其多样,包括情色内容。
文件包含
- 一个ShareGPT数据集,可直接用于训练。
- 一个“原始”版本,包含提示/标题/类型/故事列。
更新记录
- 2024-05-28: 新增一个GPT 3.5生成的版本,格式与原始文件相似,用于KTO训练的负面对照。
- 2024-06-02: 新增另一个Opus生成的版本,使用相同的写作提示,已检查并确保与现有集合足够不同,可作为扩展使用。
搜集汇总
数据集介绍

构建方式
在自然语言生成领域,Opus-WritingPrompts数据集的构建体现了对创意文本合成的系统性探索。该数据集源自Reddit的Writing Prompts社区,通过无约束的Claude Opus模型生成了3008篇短篇故事,每篇长度通常在4000至6000字符之间。生成后的文本经过细致清洗,并进一步丰富了标题与适用体裁的标注,最终以ShareGPT格式及原始列结构(包含提示、标题、体裁、故事等字段)呈现,同时后续补充了GPT-3.5生成的对比版本与新增的Opus生成扩展集,为研究提供了多层次的数据基础。
使用方法
在应用层面,Opus-WritingPrompts数据集主要服务于文本生成与模型训练任务。研究者可直接使用ShareGPT格式文件进行对话式或故事生成模型的微调,亦可利用原始文件中的结构化字段进行提示工程、体裁控制生成或内容分析。数据集中的对比版本适用于知识蒸馏、偏好优化或生成质量评估等实验,而扩展集则能增强训练数据的多样性。使用前需注意内容警示,并依据研究目标选择合适的文件与分割方式。
背景与挑战
背景概述
在自然语言生成领域,创意文本的自动生成一直是研究热点,旨在探索人工智能模型在文学创作中的潜力。Opus-WritingPrompts数据集由Gryphe于2024年创建,基于Reddit的Writing Prompts社区内容,利用Claude Opus模型生成了3008篇短篇故事。该数据集的核心研究问题聚焦于如何通过大规模合成文本提升模型在叙事生成中的多样性与连贯性,为文本生成任务提供了丰富的训练资源,推动了创意人工智能在故事创作领域的应用与发展。
当前挑战
该数据集面临的挑战主要涉及两个方面:在领域问题层面,创意文本生成需克服叙事逻辑一致性、风格多样性与内容适宜性的平衡难题,确保生成故事既富有想象力又符合人类审美标准;在构建过程中,数据清洗与标注工作面临合成文本的质量控制挑战,包括去除低质量内容、准确分配标题与流派标签,以及处理敏感题材如情色内容所带来的伦理与适用性风险,这些因素增加了数据集构建的复杂性与可靠性要求。
常用场景
经典使用场景
在自然语言生成领域,Opus-WritingPrompts数据集以其丰富的创意文本资源,为故事生成和创意写作任务提供了经典范例。该数据集源自Reddit写作提示,经由Claude Opus模型生成并经过细致清洗,包含超过3000篇短篇故事,每篇长度在4000至6000字符之间,且附有标题和多种文学体裁标签。这些特点使其成为训练和评估生成模型在开放式叙事任务中表现的重要基准,尤其在模拟人类创意写作流程方面展现出独特价值。
解决学术问题
该数据集有效应对了创意文本生成研究中数据稀缺与质量参差的挑战。通过提供大规模、多体裁的叙事文本,它助力研究者探索生成模型在长文本连贯性、情节发展和风格多样性方面的能力。其意义在于为可控文本生成、叙事结构建模等前沿课题提供了标准化实验平台,推动了人机协作创作范式的理论发展,对计算创意学领域的实证研究产生了深远影响。
实际应用
在实际应用层面,Opus-WritingPrompts数据集为创意产业和辅助写作工具开发提供了关键支持。基于该数据集训练的模型可集成至写作软件、游戏剧情生成系统或互动叙事平台,帮助创作者突破灵感瓶颈,自动生成故事框架或丰富叙事细节。同时,其在教育领域的应用也初现端倪,例如作为写作教学的案例库或个性化故事生成器的训练基础,展现了人工智能赋能人文创作的广阔前景。
数据集最近研究
最新研究方向
在自然语言生成领域,Opus-WritingPrompts数据集凭借其由Claude Opus模型生成的高质量短篇故事,正成为探索创意文本合成与可控生成的前沿工具。该数据集融合了Reddit写作提示的多样主题,并经过精细的标题与流派标注,为研究故事连贯性、风格迁移及伦理边界提供了丰富素材。近期,研究者利用其新增的GPT 3.5生成版本作为负面对照,推动了基于人类反馈的强化学习(如KTO训练)在内容安全与质量对齐方面的进展。同时,数据集的扩展版本进一步增强了生成模型的泛化能力,助力跨模态叙事与个性化创作系统的开发,在人工智能辅助文学创作和内容过滤技术中展现出深远影响。
以上内容由遇见数据集搜集并总结生成



