VellumK2-Fantasy-DPO-Large-01

Hugging Face2025-11-15 更新2025-11-16 收录

下载链接：

https://huggingface.co/datasets/lemon07r/VellumK2-Fantasy-DPO-Large-01

下载链接

链接失效反馈

官方服务：

资源简介：

VellumK2-Fantasy-DPO-Large-01 是一个大规模的合成奇幻小说数据集，包含 10,222 对高质量的偏好对，用于直接偏好优化 (DPO) 训练。该数据集使用 VellumForge2 工具生成，由 Kimi K2 和 Phi-4 模型创建。这个生产就绪的数据集为创意写作对齐提供了强大的训练信号，是 VellumForge2 收藏中的旗舰大规模发布。数据集支持多种训练范式，包括 DPO 训练和 SFT 训练，适用于生产规模的 DPO 训练、独立的训练、多领域创意写作系统的基石、创意领域大规模偏好学习的研发，以及专业质量奇幻写作的基础模型微调。

创建时间：

2025-11-07

原始信息汇总

VellumK2-Fantasy-DPO-Large-01 数据集概述

数据集基本信息

数据集名称：VellumK2-Fantasy-DPO-Large-01
创建者：lemon07r
语言：英语
许可证：MIT
标签：写作、奇幻、创意写作、DPO、偏好、合成
规模分类：10K<n<100K

数据集描述

VellumK2-Fantasy-DPO-Large-01是一个大规模合成奇幻小说数据集，包含10,222个高质量偏好对，用于直接偏好优化训练。该数据集使用VellumForge2工具与Kimi K2和Phi-4生成，为创意写作对齐提供强大的训练信号。

主要用途

直接用途

生产级DPO训练：使用10,200+高质量偏好对训练语言模型
独立训练：可作为独立的奇幻小说生成训练资源
监督微调：使用提示和选定响应列进行高质量奇幻小说写作微调
基础训练：作为多数据集训练管道的主要组成部分
研究应用：大规模偏好学习、奖励建模、创意写作生成研究

适用范围外用途

非奇幻领域：不适用于科幻、浪漫、历史小说等其他类型
事实准确性训练：不适用于事实性、信息性、技术写作或基于知识的任务
内容审核：不适用于内容过滤、安全系统或审核任务
短格式内容：不适用于推文、标题、摘要等微内容格式训练

数据集结构

数据规模

总行数：10,222行
格式：Parquet格式
拆分：训练集（100%数据集）

核心字段

prompt：创意写作提示（156-694字符）
chosen：高质量响应，由Kimi-K2-0905生成（约496-7,090字符，典型400-600词）
rejected：低质量响应，由Phi-4-mini-instruct生成（约1,020-4,180字符，典型200-400词）

数据集创建

数据来源

完全合成数据集：所有内容由大型语言模型生成
主要模型：moonshotai/kimi-k2-instruct-0905（用于子主题、提示和选定响应）
拒绝响应模型：Phi-4-mini-instruct（用于拒绝响应）
人类策划者：lemon07r（提供初始配置、主题选择、质量验证和数据集策划）

生成流程

主题生成：策划者提供"奇幻小说"主要主题
子主题生成：Kimi-K2-0905生成2,550+多样化奇幻子类型和场景
提示生成：每个子主题创建4个详细创意写作提示（总计10,200+提示）
响应生成：
- 选定响应：通过NVIDIA NIM API生成，温度0.6，目标400-600词
- 拒绝响应：通过本地llama.cpp服务器生成，温度0.0，目标200-400词
质量控制：自动拒绝检测和过滤（拒绝率<0.5%）

偏见、风险和限制

模型偏见

生成器偏见：继承源模型的西方中心奇幻套路、刻板印象和文化参考
质量差距方法：拒绝响应使用较小量化模型创建质量对比，可能不反映自然人类偏好分布

内容风险

成熟主题：包含暴力、死亡、黑暗奇幻主题和偶尔的成熟内容
合成伪影：可能包含幻觉细节、内部不一致性、重复模式和"LLM-isms"

训练风险

分布偏移：合成数据分布可能与人类编写的奇幻小说显著不同
偏好信号质量：基于模型大小和配置而非人类偏好的选择/拒绝区分
泛化限制：主要在奇幻小说上训练可能降低其他创意领域的模型性能

bibtex @misc{vellumk2-fantasy-dpo-large-01, author = {lemon07r}, title = {VellumK2-Fantasy-DPO-Large-01: A Large-Scale Synthetic Fantasy Fiction Dataset for Direct Preference Optimization}, year = {2025}, publisher = {Hugging Face}, howpublished = {https://huggingface.co/datasets/lemon07r/VellumK2-Fantasy-DPO-Large-01} }

@software{vellumforge2, title = {VellumForge2: Synthetic DPO Dataset Generator}, author = {lemon07r}, year = {2025}, url = {https://github.com/lemon07r/vellumforge2}, version = {1.5.0} }

搜集汇总

数据集介绍

构建方式

在幻想文学数据构建领域，该数据集采用多阶段合成生成策略。通过VellumForge2工具构建的生成流程首先由Kimi-K2-0905模型生成2550余种幻想子类型场景，进而为每个子类型创作四个详细写作提示，形成超过10200个创意提示。响应生成阶段采用双模型并行架构：优质响应由moonshotai/kimi-k2-instruct-0905模型通过NVIDIA NIM接口生成，目标长度为400-600词；次优响应则通过本地部署的Phi-4-mini-instruct模型生成，限定为200-400词。技术实现上采用64个并行工作线程，配合指数退避重试机制与JSON净化处理，确保大规模生成的数据质量与格式规范。

特点

该数据集在幻想文学领域展现出显著特征优势。其核心价值在于包含10222对经过精心设计的高质量偏好对，为直接偏好优化训练提供强效信号。数据规模达到生产级别，支持独立训练而无需与其他数据集组合使用。内容覆盖广泛幻想子类型，从传统史诗奇幻到当代都市奇幻，确保叙事风格与主题的多样性。技术层面采用差异化生成策略，通过模型能力差异与温度参数调控，构建清晰的偏好对比。数据集结构设计灵活，既支持DPO训练的完整三元组使用，也可单独提取提示-优质响应对进行监督微调。

使用方法

针对幻想文学生成任务的应用场景，该数据集提供多维度使用方案。直接偏好优化训练可直接利用提示、优质响应与次优响应三列数据，通过10222对偏好样本实现模型对齐。监督微调任务可单独提取提示与优质响应对，获得超过10200个高质量幻想文学写作样本。作为生产级训练资源，该数据集支持单次训练周期内的完整模型优化，也可作为多阶段训练的基础组件。研究应用方面，其大规模特性适合探索创意领域的偏好学习规律，同时需注意其合成数据特性可能带来的分布偏移问题。

背景与挑战

背景概述

在自然语言处理领域，创意写作生成模型的优化一直是研究热点。2025年，研究者lemon07r基于VellumForge2工具构建了VellumK2-Fantasy-DPO-Large-01数据集，该数据集包含10222组高质量偏好对，专门用于直接偏好优化训练。通过融合Kimi-K2-0905与Phi-4-mini模型生成的对立样本，该数据集致力于提升模型在奇幻文学创作中的叙事质量和风格一致性，为生成式人工智能在创意写作领域的应用提供了重要数据支撑。

当前挑战

该数据集面临的核心挑战在于解决奇幻小说创作中叙事连贯性与文学性的平衡问题。构建过程中需克服大规模合成数据生成的技术障碍，包括双模型协同生成时的质量差异控制、长文本生成的逻辑一致性维护，以及避免模型特定偏见在十万余文本中的系统性扩散。同时，合成数据与人类创作分布差异导致的领域适应性问题，亦成为模型泛化能力的重要制约因素。

常用场景

经典使用场景

在幻想文学生成领域，该数据集通过上万组精心构建的偏好对，为直接偏好优化训练提供了标准化范本。其核心应用聚焦于训练语言模型掌握高质量幻想小说的叙事技巧，包括复杂世界观构建、人物弧光设计以及文学性表达。通过对比优质与次优文本样本，模型能够精准学习幻想文学特有的隐喻系统、节奏把控和情感张力营造，为自动化创作系统奠定坚实基础。

衍生相关工作

基于该数据集衍生的经典研究包括多模态幻想叙事生成框架的构建，其中将视觉元素与文本生成相结合；在跨语言幻想文学适配领域，研究者利用其核心机制开发了文化适配算法；此外还催生了基于强化学习的动态情节规划系统，这些工作共同推动了创造性AI从单一样本生成向完整叙事体系的演进，为智能创作生态提供了重要技术支撑。

数据集最近研究