VellumK2-Fantasy-DPO-Small-01
收藏VellumK2-Fantasy-DPO-Small-01 数据集概述
数据集基本信息
- 数据集名称:VellumK2-Fantasy-DPO-Small-01
- 创建者:lemon07r
- 语言:英语
- 许可证:MIT
- 标签:写作、奇幻、创意写作、DPO、偏好、合成、LLM作为评判者
- 规模分类:1K<n<10K
- 数据集大小:1,038个示例
数据集描述
VellumK2-Fantasy-DPO-Small-01是一个合成的奇幻小说数据集,包含1,038个偏好对,用于直接偏好优化训练。该数据集使用VellumForge2工具生成,采用LLM作为评判者评估方法。
数据集用途
直接用途
- DPO训练:使用prompt、chosen、rejected列进行直接偏好优化训练
- 监督微调:使用prompt和chosen列进行高质量奇幻小说写作的微调
- 奖励模型训练:使用chosen_score_total和rejected_score_total列训练奖励模型
- 多目标强化学习:利用chosen_scores和rejected_scores中的12个标准进行MORL方法
- 创意写作基准测试:在情节结构、角色发展、散文风格和世界构建方面评估模型输出
- 偏好学习研究:研究LLM偏好如何与结构化文学评估标准对齐
超出范围用途
- 非奇幻领域:数据集专门针对奇幻小说,应用于其他类型可能泛化效果不佳
- 事实准确性训练:作为创意小说,不应用于训练事实性、信息性或技术性写作任务
- 内容审核:虽然包含适合奇幻小说的成熟主题,但不适用于内容过滤或安全系统
- 短格式内容:所有回复都是400-600词的故事,不适合训练推文、标题或其他微内容格式
数据集结构
核心字段
- main_topic:总体主题 - "Fantasy Fiction"
- sub_topic:特定奇幻子类型或主题
- prompt:创意写作提示(200-900字符)
- chosen:由Kimi-K2-0905生成的高质量回复(2.5k-6k字符,约400-600词)
- rejected:由GPT-4o-mini以更高温度生成的较低质量回复(2k-7k字符,约300-500词)
评判者评估字段
- chosen_scores:包含12个标准的嵌套字典,每个标准包含score和reasoning
- rejected_scores:与chosen_scores相同结构,针对被拒绝的回复
- chosen_score_total:所有标准的平均分数(通常4.0-5.0)
- rejected_score_total:被拒绝回复的平均分数(通常2.0-4.0)
- preference_margin:选择与被拒绝总数之间的差异(通常0.5-3.0)
评判标准(12个维度)
每个故事在12个文学质量维度上评估,评分1-5分并包含详细推理:
- 情节和结构完整性
- 角色和对话
- 世界构建和沉浸感
- 散文风格和声音
- 风格和词汇松散度
- 叙事公式和原型简单性
- 连贯性和事实一致性
- 内容生成与回避
- 敏感主题的细致描绘
- 语法和句法准确性
- 清晰度、简洁性和词汇选择
- 结构和段落组织
数据分割
- train:1,038个示例(数据集的100%)
数据集创建
数据来源
这是一个完全合成的数据集,所有内容均由大型语言模型使用VellumForge2工具生成。
生成流程
- 主题生成:策划者提供主要主题"Fantasy Fiction"
- 子主题生成:Kimi-K2-0905生成多样化的奇幻子类型和场景
- 提示生成:Kimi-K2-0905为每个子主题创建详细的创意写作提示
- 回复生成:
- 选择的回复:由moonshotai/kimi-k2-instruct-0905生成
- 被拒绝的回复:由gpt-4o-mini生成
- 评判者评估:Kimi-K2-0905在12个文学标准上评估两个回复
注释过程
所有质量分数和推理均由LLM作为评判者系统提供的注释。
偏见、风险和限制
模型偏见
- 生成器偏见:选择和被拒绝的回复都继承了源模型的偏见
- 评判者偏见:质量评估反映了Kimi-K2-0905的美学偏好和偏见
内容风险
- 成熟主题:故事包含暴力、死亡、黑暗奇幻主题和偶尔的成熟内容
- 合成伪影:生成的文本可能包含幻觉细节、内部不一致的世界构建
训练风险
- 分布偏移:合成数据分布可能与人类编写的奇幻小说显著不同
- 奖励黑客:模型可能学习优化特定标准而非真正的写作质量
数据集限制
- 规模限制:1,038行适合轻量训练,但对于大规模稳健对齐可能不足
- 单一领域:仅限于奇幻小说
- 二元偏好:每个提示只有一个选择/被拒绝对
引用信息
BibTeX引用
bibtex @misc{vellumk2-fantasy-dpo-small-01, author = {lemon07r}, title = {VellumK2-Fantasy-DPO-Small-01: A Synthetic Fantasy Fiction Dataset for Direct Preference Optimization}, year = {2025}, publisher = {Hugging Face}, howpublished = {https://huggingface.co/datasets/lemon07r/VellumK2-Fantasy-DPO-Small-01} }
@software{vellumforge2, title = {VellumForge2: Synthetic DPO Dataset Generator with LLM-as-a-Judge}, author = {lemon07r}, year = {2025}, url = {https://github.com/lemon07r/vellumforge2}, version = {1.3.2} }
相关资源
- 相关数据集:VellumK2-Fantasy-DPO-Tiny-01、VellumK2-Fantasy-DPO-Medium-01、VellumK2-Fantasy-DPO-01
- 生成工具:VellumForge2 - https://github.com/lemon07r/vellumforge2
- 数据集集合:https://huggingface.co/collections/lemon07r/vellumforge2-datasets




