VellumK2-Fantasy-DPO-Tiny-01

Hugging Face2025-11-05 更新2025-11-06 收录

下载链接：

https://huggingface.co/datasets/lemon07r/VellumK2-Fantasy-DPO-Tiny-01

下载链接

链接失效反馈

官方服务：

资源简介：

VellumK2-Fantasy-DPO-Tiny-01是一个由VellumForge2使用LLM-as-a-Judge评估生成的合成幻想小说数据集，包含偏好对和详细的品质评分。每行包含一个创意写作提示，一个高质量的“选中”回复，一个低质量的“拒绝”回复，以及跨越12个文学标准的全面LLM-as-a-Judge评估。数据集采用“一对多”混合模式，支持多种训练范式，如DPO训练、SFT训练、奖励模型训练和多目标强化学习。该数据集非常适合测试、验证或快速微调实验，但由于其小规模（126行），不适合用于生产级模型训练或稳健的对齐。

创建时间：

2025-10-28

原始信息汇总

VellumK2-Fantasy-DPO-Tiny-01 数据集概述

数据集基本信息

数据集名称：VellumK2-Fantasy-DPO-Tiny-01
描述：用于直接偏好优化（DPO）训练的微型合成奇幻小说数据集
语言：英语
许可证：MIT
数据规模：126行
大小类别：n<1K

数据集用途

直接用途

DPO训练管道测试
监督微调
奖励模型训练
多目标强化学习
基准测试

超出范围用途

生产级DPO训练
非奇幻领域应用
事实准确性训练
内容审核系统

数据集结构

核心字段

main_topic：主要主题
sub_topic：子主题
prompt：创意写作提示
chosen：高质量响应
rejected：低质量响应

评估字段

chosen_scores：12个标准的嵌套字典
rejected_scores：相同结构
chosen_score_total：平均总分
rejected_score_total：平均总分
preference_margin：偏好差异

评估标准

情节与结构完整性
角色与对话
世界构建与沉浸感
散文风格与声音
风格与词汇缺陷
叙事公式与原型简单性
连贯性与事实一致性
内容生成与回避
敏感主题的细致描绘
语法与句法准确性
清晰度、简洁性与词汇选择
结构与段落组织

数据划分

train：126个示例

数据集创建

数据来源

类型：完全合成数据集
主要模型：moonshotai/kimi-k2-instruct-0905
拒绝响应模型：phi-4-mini-instruct
人工策划：lemon07r

生成流程

主题生成
子主题生成
提示生成
响应生成
评估过程

偏见、风险与限制

规模限制

非常小的数据集
覆盖范围有限

模型偏见

生成器偏见
评估偏见
质量差距不确定性

内容风险

成熟主题
合成伪影

训练风险

过拟合
分布偏移
奖励攻击

引用信息

BibTeX

bibtex @misc{vellumk2-fantasy-dpo-tiny-01, author = {lemon07r}, title = {VellumK2-Fantasy-DPO-Tiny-01: A Tiny Synthetic Fantasy Fiction Dataset for DPO}, year = {2025}, publisher = {Hugging Face}, howpublished = {url{https://huggingface.co/datasets/lemon07r/VellumK2-Fantasy-DPO-Tiny-01}} }

APA

lemon07r. (2025). VellumK2-Fantasy-DPO-Tiny-01: A Tiny Synthetic Fantasy Fiction Dataset for DPO [Dataset]. Hugging Face. https://huggingface.co/datasets/lemon07r/VellumK2-Fantasy-DPO-Tiny-01

相关资源

相关数据集：VellumK2-Fantasy-DPO-Small-01、VellumK2-Fantasy-DPO-01
生成工具：VellumForge2
存储库：https://github.com/lemon07r/vellumforge2
数据集集合：https://huggingface.co/collections/lemon07r/vellumforge2-datasets

搜集汇总

数据集介绍

构建方式

在奇幻文学创作领域，该数据集采用全自动合成生成技术构建。通过VellumForge2工具搭建多阶段生成流水线：首先由Kimi-K2-0905模型生成多样化奇幻子题材与详细创作提示，随后并行调用两个语言模型分别生成优质回复与次优回复。其中优质回复通过控制温度参数确保叙事丰富性，次优回复则采用量化模型配合较高温度参数以制造质量差异。最终由同一模型担任评判者，基于12项文学评价标准对每对回复进行多维度量化评分，形成完整的偏好对数据。

特点

该数据集最显著的特征在于其精巧的多范式支持架构。每个数据样本不仅包含标准的提示词-优质回复-次优回复三元组，更嵌入了细粒度的多维度评分体系。通过12项文学评价指标构成的嵌套字典结构，研究者可清晰追溯每项评分背后的逻辑依据。数据样本间保持稳定的质量梯度，偏好边际值分布在0.5至3.0的合理区间，为模型偏好学习提供了可靠的监督信号。这种设计使得单次数据加载即可支持直接偏好优化、监督微调、奖励建模及多目标强化学习四种训练范式。

使用方法

针对自然语言处理领域的模型对齐研究，该数据集提供了灵活的应用方案。进行直接偏好优化训练时，直接提取提示词、优质回复与次优回复三列数据即可构建标准训练集。若开展监督微调，仅需使用提示词与优质回复列作为序列到序列的训练样本。奖励建模任务则可利用总分字段构建回归目标，而多目标强化学习则能解析嵌套的评分字典实现多维度优化。鉴于数据集规模精小，建议主要用于训练流程验证与超参数调试，实际应用时需注意控制训练轮次以防止过拟合。

背景与挑战

背景概述

在自然语言处理领域，直接偏好优化（DPO）方法已成为模型对齐的重要技术路径。VellumK2-Fantasy-DPO-Tiny-01数据集由研究者lemon07r于2025年创建，专门针对幻想文学创作场景设计。该数据集通过VellumForge2工具生成，采用LLM-as-a-Judge评估机制，旨在为DPO训练流程提供轻量级验证资源。其核心研究问题聚焦于如何在有限数据规模下构建有效的偏好对齐基准，为创意写作领域的模型优化提供实验基础。

当前挑战

该数据集面临的主要挑战体现在领域问题与构建过程两个维度。在领域层面，幻想文学创作的评价标准具有高度主观性，如何建立客观的文本质量评估体系成为关键难题。构建过程中，合成数据的真实性验证面临挑战，包括模型固有偏见对内容生成的影响、多维度评分标准的一致性保障等问题。此外，小规模数据集在模型训练时容易引发过拟合现象，且合成数据分布与真实创作文本间存在显著差异，这些因素共同构成了数据集应用的技术瓶颈。

常用场景

经典使用场景

在幻想文学生成领域，该数据集为直接偏好优化算法提供了标准化的验证环境。研究者通过对比高质量与低质量文本响应的偏好对，能够系统评估模型在叙事结构、角色塑造等十二项文学维度的表现差异，为算法调优提供量化依据。

解决学术问题

该数据集通过合成数据生成机制，有效缓解了创意写作领域人工标注成本高昂的困境。其精细的评分体系为多目标强化学习提供了可解释性框架，解决了传统单一奖励信号难以捕捉文学创作多维特性的学术挑战。

衍生相关工作

基于该数据集构建的评估范式已衍生出多项创新研究。VellumForge2工具链的扩展版本实现了跨体裁迁移评估，部分团队将其评分框架适配至推理小说领域，另有研究通过融合人类专家评分与LLM评判构建混合评估体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集