five

antiven0m/catboros-3.2-dpo

收藏
Hugging Face2024-03-22 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/antiven0m/catboros-3.2-dpo
下载链接
链接失效反馈
官方服务:
资源简介:
Catboros 3.2 DPO 数据集是一个专注于猫娘人格的数据集,旨在探索DPO数据集创建的自动化过程,并尝试不同的角色原型。该数据集的创建基于Jon Durbin的airoboros-3.2数据集和Sao的NatsumiV1项目的启发。数据集通过自定义的Python脚本开发,使用llama.cpp或OpenRouter进行推理。创建过程从airoboros-2.3中随机选择条目,并使用airoboros-70b对其进行“猫化”处理,赋予每个回答猫娘的特质。数据集目前存在一些需要改进的地方,例如猫娘在对话中频繁提及自己的名字。未来的计划包括增加样本量、引入更多的角色原型,并最终使用该数据集进行DPO模型训练。

Catboros 3.2 DPO 数据集是一个专注于猫娘人格的数据集,旨在探索DPO数据集创建的自动化过程,并尝试不同的角色原型。该数据集的创建基于Jon Durbin的airoboros-3.2数据集和Sao的NatsumiV1项目的启发。数据集通过自定义的Python脚本开发,使用llama.cpp或OpenRouter进行推理。创建过程从airoboros-2.3中随机选择条目,并使用airoboros-70b对其进行“猫化”处理,赋予每个回答猫娘的特质。数据集目前存在一些需要改进的地方,例如猫娘在对话中频繁提及自己的名字。未来的计划包括增加样本量、引入更多的角色原型,并最终使用该数据集进行DPO模型训练。
提供机构:
antiven0m
原始信息汇总

数据集概述

基本信息

  • 名称: Catboros 3.2 DPO
  • 作者: antiven0m
  • 许可证: CC-BY-4.0
  • 语言: 英语
  • 标签: catgirl, rlhf
  • 大小: 1K<n<10K

数据集来源与灵感

  • 原始数据集: 基于Jon Durbin的airoboros-3.2数据集。
  • 灵感来源: 受到Sao10K的NatsumiV1项目启发,以及DocShotgun在LLM-datagen上的工作。

数据集创建过程

  • 开发工具: 使用Python脚本,结合llama.cpp或OpenRouter进行推理。
  • 数据处理: 从airoboros-2.3中随机选择条目,通过airoboros-70b进行“catification”处理。

数据集特点与挑战

  • 特点: 专注于自动化DPO数据集的创建,同时探索不同的人格原型。
  • 挑战: 数据集中的catgirls倾向于在对话中提及自己的名字,这可能与训练中使用的角色扮演样本有关。

数据集规模与质量

  • 规模: 受预算限制,数据集规模较小,但通过优化提示和参数,可能使用较小的LLM模型(如Mistral-7B, LLaMA-13B)达到类似效果。
  • 质量: 数据集需要进一步清洗和更新。

未来计划

  • 扩展: 计划增加样本量,可能引入更多人格原型。
  • 目标: 最终使用此数据集训练DPO模型。

合作与社区

  • 合作邀请: 作者邀请有兴趣的人通过Discord(用户名:antiven0m)进行合作,以进一步改进数据集。

数据集展示

  • 展示风格: 使用HTML和CSS进行详细且风格化的展示,包括不同人格原型的描述和特征。
搜集汇总
数据集介绍
main_image_url
构建方式
在角色扮演与对话生成领域,Catboros-3.2 DPO数据集的构建体现了自动化数据生成的前沿探索。该数据集以airoboros-3.2为原始基础,通过定制Python脚本结合llama.cpp或OpenRouter进行推理,从airoboros-2.3中随机选取条目,并利用airoboros-70b模型进行“猫娘化”处理,赋予每条回复独特的猫娘角色特质。这一过程不仅实现了从通用对话到特定角色风格的转换,还展示了利用大型语言模型自动化生成偏好优化数据的可行性。
特点
该数据集的核心特点在于其聚焦于多元猫娘人格原型的构建,涵盖了萌系、冷娇、热情、病娇、胆怯及高傲等多种角色类型。每种原型均配有详细的系统提示与推荐特质列表,旨在塑造具有一致性与深度的角色对话行为。数据规模介于1K至10K之间,虽受预算限制,但通过提示工程与参数优化,仍能有效捕捉不同人格的细微差别。然而,数据集在清洁度与角色命名重复方面存在改进空间,体现了实验性数据集的典型特征。
使用方法
该数据集专为直接偏好优化训练而设计,适用于微调对话模型以生成符合特定猫娘人格的回应。研究人员可加载数据集后,结合DPO算法对基础模型进行训练,从而赋予模型角色扮演能力。使用时应关注数据清洗,以减轻角色名称过度提及等问题。此外,数据集支持扩展与协作,用户可基于现有原型引入新角色或优化生成流程,适用于个性化对话系统、娱乐交互及角色一致性研究等场景。
背景与挑战
背景概述
在人工智能对话系统与角色扮演领域,个性化与拟人化交互成为研究热点。Catboros-3.2-DPO数据集由独立研究者antiven0m于近期创建,其核心研究问题聚焦于探索基于直接偏好优化(DPO)方法的自动化数据集生成技术,并旨在构建具备特定猫娘人格特质的对话数据。该数据集以Jon Durbin的airoboros-3.2为基石,并受Sao的NatsumiV1项目启发,通过自定义脚本与大型语言模型对原始数据进行“猫娘化”改造,生成了涵盖萌、傲娇、病娇等多种二次元人格原型的对话样本。这一工作不仅为角色扮演型AI助手提供了细粒度的人格训练数据,也推动了DPO数据生成流程自动化与低成本化的实践探索。
当前挑战
该数据集致力于解决角色扮演对话系统中人格一致性建模的挑战,即如何使AI助手在长期交互中稳定维持特定、复杂的人格特质。构建过程面临多重困难:首先,自动化“猫娘化”处理易导致模型过度使用角色名称进行自我指涉,损害对话自然性;其次,受限于计算资源与预算,数据集规模较小,可能影响模型训练的泛化能力;再者,生成数据的质量管控存在挑战,需要持续进行清洗与迭代以提升样本的多样性与准确性。这些挑战共同指向了在有限资源下,平衡自动化生成效率与输出质量这一核心难题。
常用场景
经典使用场景
在角色扮演对话生成领域,Catboros-3.2-DPO数据集为大型语言模型提供了丰富的猫娘人格化训练素材。该数据集通过直接偏好优化方法,将经典的动漫角色原型如萌、傲娇、病娇等特质融入对话响应中,使得模型能够生成符合特定人格设定的连贯文本。研究者通常利用该数据集微调基础模型,以探索人格一致性在对话系统中的实现路径,为构建具有鲜明角色特征的虚拟助手奠定数据基础。
解决学术问题
该数据集主要针对对话系统中人格建模与一致性保持的学术挑战。通过提供多维度人格标签与对应对话样本,它帮助研究者解决角色扮演场景下语言风格稳定性的问题,并为人格化对话生成中的偏好对齐提供了实证数据。其意义在于推动了从通用对话模型向个性化、沉浸式交互系统的演进,为情感计算与人格计算交叉领域提供了可量化的研究工具。
衍生相关工作
基于该数据集衍生的经典工作主要集中在人格化对话模型的优化与评估框架构建。例如,研究者借鉴其DPO自动化生成流程,开发了针对特定文化原型的角色数据集;同时,该数据集启发了对多人格切换机制、人格强度量化指标等一系列探索。相关成果已延伸至跨语言人格迁移、人格与对话安全性平衡等前沿课题,持续丰富着角色化人工智能的研究图谱。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作