VellumK2-Fantasy-DPO-Small-01

Hugging Face2025-11-05 更新2025-11-06 收录

下载链接：

https://huggingface.co/datasets/lemon07r/VellumK2-Fantasy-DPO-Small-01

下载链接

链接失效反馈

官方服务：

资源简介：

VellumK2-Fantasy-DPO-Small-01是一个合成幻想小说数据集，包含1038对偏好对，用于直接偏好优化（DPO）训练。每个偏好对包括一个创意写作提示、一个高质量的“选定”回复和一个低质量的“拒绝”回复。每个回复都由LLM-as-a-Judge系统在12个文学标准上进行了评估。该数据集适合各种训练范式，包括SFT、奖励模型训练和多目标强化学习（MORL），并以JSONL格式提供。数据集的创建、来源、结构和潜在的偏见、风险和限制也得到了讨论。

VellumK2-Fantasy-DPO-Small-01 is a synthetic fantasy fiction dataset containing 1038 preference pairs for Direct Preference Optimization (DPO) training. Each preference pair comprises a creative writing prompt, a high-quality "chosen" response, and a low-quality "rejected" response. All responses were evaluated against 12 literary criteria by an LLM-as-a-Judge system. This dataset supports multiple training paradigms including Supervised Fine-Tuning (SFT), reward model training, and Multi-Objective Reinforcement Learning (MORL), and is provided in JSONL format. The dataset's creation, provenance, structure, as well as potential biases, risks and limitations are also discussed.

创建时间：

2025-10-30

原始信息汇总

VellumK2-Fantasy-DPO-Small-01 数据集概述

数据集基本信息

数据集名称：VellumK2-Fantasy-DPO-Small-01
创建者：lemon07r
语言：英语
许可证：MIT
标签：写作、奇幻、创意写作、DPO、偏好、合成、LLM作为评判者
规模分类：1K<n<10K
数据集大小：1,038个示例

数据集描述

VellumK2-Fantasy-DPO-Small-01是一个合成的奇幻小说数据集，包含1,038个偏好对，用于直接偏好优化训练。该数据集使用VellumForge2工具生成，采用LLM作为评判者评估方法。

数据集用途

直接用途

DPO训练：使用prompt、chosen、rejected列进行直接偏好优化训练
监督微调：使用prompt和chosen列进行高质量奇幻小说写作的微调
奖励模型训练：使用chosen_score_total和rejected_score_total列训练奖励模型
多目标强化学习：利用chosen_scores和rejected_scores中的12个标准进行MORL方法
创意写作基准测试：在情节结构、角色发展、散文风格和世界构建方面评估模型输出
偏好学习研究：研究LLM偏好如何与结构化文学评估标准对齐

超出范围用途

非奇幻领域：数据集专门针对奇幻小说，应用于其他类型可能泛化效果不佳
事实准确性训练：作为创意小说，不应用于训练事实性、信息性或技术性写作任务
内容审核：虽然包含适合奇幻小说的成熟主题，但不适用于内容过滤或安全系统
短格式内容：所有回复都是400-600词的故事，不适合训练推文、标题或其他微内容格式

数据集结构

核心字段

main_topic：总体主题 - "Fantasy Fiction"
sub_topic：特定奇幻子类型或主题
prompt：创意写作提示（200-900字符）
chosen：由Kimi-K2-0905生成的高质量回复（2.5k-6k字符，约400-600词）
rejected：由GPT-4o-mini以更高温度生成的较低质量回复（2k-7k字符，约300-500词）

评判者评估字段

chosen_scores：包含12个标准的嵌套字典，每个标准包含score和reasoning
rejected_scores：与chosen_scores相同结构，针对被拒绝的回复
chosen_score_total：所有标准的平均分数（通常4.0-5.0）
rejected_score_total：被拒绝回复的平均分数（通常2.0-4.0）
preference_margin：选择与被拒绝总数之间的差异（通常0.5-3.0）

评判标准（12个维度）

每个故事在12个文学质量维度上评估，评分1-5分并包含详细推理：

情节和结构完整性
角色和对话
世界构建和沉浸感
散文风格和声音
风格和词汇松散度
叙事公式和原型简单性
连贯性和事实一致性
内容生成与回避
敏感主题的细致描绘
语法和句法准确性
清晰度、简洁性和词汇选择
结构和段落组织

数据分割

train：1,038个示例（数据集的100%）

数据集创建

数据来源

这是一个完全合成的数据集，所有内容均由大型语言模型使用VellumForge2工具生成。

生成流程

主题生成：策划者提供主要主题"Fantasy Fiction"
子主题生成：Kimi-K2-0905生成多样化的奇幻子类型和场景
提示生成：Kimi-K2-0905为每个子主题创建详细的创意写作提示
回复生成：
- 选择的回复：由moonshotai/kimi-k2-instruct-0905生成
- 被拒绝的回复：由gpt-4o-mini生成
评判者评估：Kimi-K2-0905在12个文学标准上评估两个回复

注释过程

所有质量分数和推理均由LLM作为评判者系统提供的注释。

偏见、风险和限制

模型偏见

生成器偏见：选择和被拒绝的回复都继承了源模型的偏见
评判者偏见：质量评估反映了Kimi-K2-0905的美学偏好和偏见

内容风险

成熟主题：故事包含暴力、死亡、黑暗奇幻主题和偶尔的成熟内容
合成伪影：生成的文本可能包含幻觉细节、内部不一致的世界构建

训练风险

分布偏移：合成数据分布可能与人类编写的奇幻小说显著不同
奖励黑客：模型可能学习优化特定标准而非真正的写作质量

数据集限制

规模限制：1,038行适合轻量训练，但对于大规模稳健对齐可能不足
单一领域：仅限于奇幻小说
二元偏好：每个提示只有一个选择/被拒绝对

引用信息

BibTeX引用

bibtex @misc{vellumk2-fantasy-dpo-small-01, author = {lemon07r}, title = {VellumK2-Fantasy-DPO-Small-01: A Synthetic Fantasy Fiction Dataset for Direct Preference Optimization}, year = {2025}, publisher = {Hugging Face}, howpublished = {https://huggingface.co/datasets/lemon07r/VellumK2-Fantasy-DPO-Small-01} }

@software{vellumforge2, title = {VellumForge2: Synthetic DPO Dataset Generator with LLM-as-a-Judge}, author = {lemon07r}, year = {2025}, url = {https://github.com/lemon07r/vellumforge2}, version = {1.3.2} }

相关资源

相关数据集：VellumK2-Fantasy-DPO-Tiny-01、VellumK2-Fantasy-DPO-Medium-01、VellumK2-Fantasy-DPO-01
生成工具：VellumForge2 - https://github.com/lemon07r/vellumforge2
数据集集合：https://huggingface.co/collections/lemon07r/vellumforge2-datasets

搜集汇总

数据集介绍

构建方式

在奇幻文学与人工智能交叉研究领域，该数据集通过VellumForge2工具构建了完整的合成数据生成流程。采用双模型对比生成策略，由Kimi-K2-0905模型生成高质量选定回复，GPT-4o-mini模型通过高温参数生成低质量拒绝回复，形成1038组偏好对。通过LLM-as-Judge评估机制，基于12项文学评价标准对每对回复进行多维评分，构建过程包含主题生成、提示创作、响应生成与自动化评估四个核心阶段，最终形成支持多训练范式的结构化数据。

特点

该数据集最显著的特征在于其多维度评估体系与混合架构设计。每个数据样本不仅包含基础提示词与对比回复，更嵌入了涵盖情节结构、人物塑造、世界观构建等12个文学维度的详细评分，形成细粒度质量评估网络。数据集采用一对多混合架构，可同时支持直接偏好优化、监督微调、奖励建模和多目标强化学习四种训练范式，其合成数据特性确保了内容的一致性与可扩展性，为创造性写作研究提供了标准化评估基准。

使用方法

在自然语言生成模型训练实践中，该数据集可通过不同列组合适配多种训练场景。直接偏好优化训练直接使用提示词、选定回复和拒绝回复三列数据；监督微调则仅需提取提示词与选定回复列进行序列到序列训练；奖励建模任务可利用总分列构建回归模型，而多目标强化学习可通过解析嵌套评分字典实现多维度优化。数据集采用标准JSONL格式，支持主流深度学习框架直接加载，其模块化设计使得研究者能灵活选取所需数据子集进行针对性实验。

背景与挑战

背景概述

在自然语言处理领域，创造性写作任务的模型对齐一直是研究热点。VellumK2-Fantasy-DPO-Small-01数据集由研究者lemon07r于2025年构建，专注于奇幻小说领域的直接偏好优化训练。该数据集通过VellumForge2工具生成1038组偏好对，采用LLM-as-a-Judge评估机制，为语言模型在文学创作质量的多维度优化提供了结构化数据支撑。其创新性地融合了十二项文学评价标准，推动了生成式模型在创意写作领域的能力边界探索。

当前挑战

该数据集致力于解决奇幻小说创作中模型输出的文学质量优化问题，面临生成内容与人类写作分布差异的泛化挑战。构建过程中需克服合成数据的固有局限：一方面需通过双模型策略制造质量对比，但高温度采样可能扭曲真实偏好分布；另一方面依赖单一评判模型可能导致美学偏见，其西方中心主义的叙事范式可能无法覆盖多元文化传统。此外，数据规模的限制使得模型可能过度拟合特定评价标准而忽视整体创作质量。

常用场景

经典使用场景

在创意写作领域，该数据集通过1038个精心构建的偏好对，为直接偏好优化训练提供了标准化的实验平台。其核心应用场景聚焦于提升语言模型在奇幻文学创作中的叙事质量，通过对比高质量与低质量文本样本，使模型能够学习复杂的情节架构、人物塑造及世界观构建等文学要素。这种训练范式特别适用于需要平衡文学性与结构完整性的生成任务，为自动化创作系统奠定了技术基础。

解决学术问题

该数据集有效解决了语言模型对齐研究中偏好信号稀疏的学术难题。通过引入涵盖12个维度的细粒度评估体系，包括情节完整性、人物对话、世界构建等文学指标，为多目标强化学习提供了可量化的优化路径。其合成数据生成机制突破了传统人工标注的成本限制，使得研究者能够系统探索模型在创造性任务中的表现边界，推动了可控文本生成理论的发展。

衍生相关工作

基于该数据集衍生的研究已拓展至多模态叙事生成领域，部分工作将其评估框架适配于剧本创作与游戏剧情设计。相关研究进一步细化了文化适应性评估维度，开发出考虑跨文化叙事传统的增强版数据集。在方法论层面，该数据集的LLM-as-Judge机制催生了新型自动化评估工具，为其他创造性领域的质量评估提供了可迁移的解决方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集