VellumK2T-Fiction-DPO-Small-01

Hugging Face2025-11-20 更新2025-11-21 收录

下载链接：

https://huggingface.co/datasets/lemon07r/VellumK2T-Fiction-DPO-Small-01

下载链接

链接失效反馈

官方服务：

资源简介：

VellumK2T-Fiction-DPO-Small-01是一个合成的小规模虚构数据集，包含333个prompt-chosen-rejected对，用于直接偏好优化（DPO）。该数据集使用VellumForge2管道生成，旨在提高大型语言模型编写连贯、吸引人的虚构故事的能力。

VellumK2T-Fiction-DPO-Small-01 is a synthetic small-scale fictional dataset containing 333 prompt-chosen-rejected triplets for Direct Preference Optimization (DPO). Generated using the VellumForge2 pipeline, this dataset is designed to enhance the ability of large language models (LLMs) to write coherent and engaging fictional stories.

创建时间：

2025-11-17

原始信息汇总

数据集概述

基本信息

数据集名称: VellumK2T-Fiction-DPO-Small-01
创建者: lemon07r
语言: 英语
许可证: MIT
规模: 333个示例
标签: 写作、小说、创意写作、DPO、合成、偏好

数据集描述

VellumK2T-Fiction-DPO-Small-01是一个合成生成的小说写作数据集，采用直接偏好优化格式。每个数据行包含：

提示: 创意写作提示或场景描述
选定响应: 高质量的故事或场景，有效回应提示
拒绝响应: 质量较低的替代方案，作为负面示例

主要用途

直接偏好优化: 训练语言模型在创意写作中与人类偏好对齐
奖励建模: 训练奖励模型基于质量、连贯性和提示遵循程度对小说输出进行评分
评估/基准测试: 作为测试集评估模型区分高质量和低质量叙事写作的能力

数据集结构

配置

default: 标准DPO数据集（dataset.jsonl）
reasoning: 在选定/拒绝响应中包含<think>标签，保留模型的推理过程（dataset_reasoning.jsonl）

特征

prompt: 字符串类型，写作提示
chosen: 字符串类型，优选的故事响应
rejected: 字符串类型，不优选的故事响应

创建信息

生成工具: VellumForge2
选定模型: Kimi K2 Thinking
拒绝模型: GPT-OSS 20B
清理过程: 后处理移除元评论

相关资源

Hugging Face数据集: https://huggingface.co/datasets/lemon07r/VellumK2T-Fiction-DPO-Small-01
生成工具仓库: https://github.com/lemon07r/vellumforge2
数据集集合: https://huggingface.co/collections/lemon07r/vellumforge2-datasets

搜集汇总

数据集介绍

构建方式

在创意写作领域的数据集构建中，VellumK2T-Fiction-DPO-Small-01采用合成生成策略，通过VellumForge2工具流水线精心构造。该流程运用Kimi K2 Thinking模型生成优质故事作为正例，同时借助GPT-OSS 20B模型产生存在质量缺陷的叙事作为负例。为确保数据纯净度，开发团队对负例样本进行了深度清洗，系统剔除了模型自述性语言等元话语干扰，最终形成包含333组提示-优选-劣选三元组的高质量语料库。

特点

该数据集在文学创作计算领域展现出独特价值，其核心特征体现在三重维度：数据架构采用直接偏好优化标准格式，每个样本均包含创意提示、优质叙事与缺陷文本的对比组合；内容质量通过严格的后期处理流程保障，有效规避了合成数据常见的机械回应现象；功能设计兼具实用性与拓展性，不仅提供基础版本还特别保留带有思维链标记的推理版本，为研究模型创作逻辑提供了多角度观察窗口。

使用方法

针对叙事生成模型的优化需求，该数据集主要服务于三大应用场景：在直接偏好优化训练中，通过对比学习机制引导模型辨识文学作品的品质差异；在奖励模型构建过程中，可作为评估叙事连贯性与创意度的基准数据集；在算法评估领域，其精心设计的正负例对照为衡量模型审美判断能力提供了标准化测试平台。研究者通过加载默认配置或推理配置即可快速集成至训练流程，但需注意其专属于虚构文学领域的适用边界。

背景与挑战

背景概述

在自然语言处理领域，创造性文本生成一直是极具挑战性的研究方向。VellumK2T-Fiction-DPO-Small-01数据集由研究者lemon07r于2025年通过VellumForge2工具构建，专注于解决虚构文学创作中的偏好优化问题。该数据集采用直接偏好优化框架，包含333组精心设计的提示词-优选文本-劣选文本三元组，旨在提升语言模型在叙事连贯性、情感表达和创意质量方面的表现。作为小规模合成数据集的代表，它为探索数据质量与模型性能的平衡关系提供了重要实验基础。

当前挑战

虚构文本生成领域面临的核心挑战在于如何量化评估叙事作品的文学价值与创造性。该数据集构建过程中需克服合成数据的真实性偏差问题，特别是消除劣选文本中模型自我指涉的元语言干扰。数据生成阶段需协调不同能力模型（Kimi K2 Thinking与GPT-OSS 20B）的输出差异，确保偏好标注能准确反映文学质量维度。此外，小规模数据集还需解决语义密度与风格多样性的平衡问题，避免过拟合导致模型创造性受限。

常用场景

经典使用场景

在创意写作领域，该数据集通过精心设计的提示词与优质故事回应配对，为直接偏好优化算法提供了标准化的训练范例。其核心应用在于引导语言模型学习人类对叙事连贯性、情感张力和文学品质的偏好判断，尤其适用于长篇小说片段的生成质量优化。

衍生相关工作

基于该数据集的特性，已有研究衍生出多模态叙事生成框架与动态奖励建模方法。相关成果推动了基于强化学习的创意写作系统发展，并在故事生成评估指标设计领域催生了新的技术标准。

数据集最近研究