athirdpath/DPO_Pairs-Roleplay-Alpaca-NSFW-v1-SHUFFLED
收藏Hugging Face2023-12-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/athirdpath/DPO_Pairs-Roleplay-Alpaca-NSFW-v1-SHUFFLED
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含约3.4k个DPO对,由Iambe和GPT-4生成,其中GPT-4占约10%,Iambe占约80%(q5_k_m)和约10%(q6_k)。数据集主要用于ERP(企业资源规划),其中包含大量情色场景,但也有体育、冒险等内容作为基线。数据集未经过手动清理,尽管已经进行了一些基本的搜索和替换操作,但大部分内容尚未被人阅读。数据集的目标是用于改进Iambe模型,使其能够生成更高质量的数据。
该数据集包含约3.4k个DPO对,由Iambe和GPT-4生成,其中GPT-4占约10%,Iambe占约80%(q5_k_m)和约10%(q6_k)。数据集主要用于ERP(企业资源规划),其中包含大量情色场景,但也有体育、冒险等内容作为基线。数据集未经过手动清理,尽管已经进行了一些基本的搜索和替换操作,但大部分内容尚未被人阅读。数据集的目标是用于改进Iambe模型,使其能够生成更高质量的数据。
提供机构:
athirdpath
原始信息汇总
数据集描述
- 数据量:约3.4k个DPO(直接偏好优化)对。
- 生成方式:由Iambe结合GPT-4生成(约10% GPT-4,约80% Iambe @ q5_k_m / 约10% Iambe @ q6_k),使用温度1.2和最小概率0.15。
- 数据处理:数据已被打乱,因为之前未意识到TRL不会自动打乱数据,直到在损失模式中看到数据集的变动。
- 生成细节:每个对的选中和拒绝响应是同时从单个两部分提示生成的(不是数据集中的提示)。只有少数几对未能生成拒绝响应,这些情况下使用标准的“作为AI”风格拒绝填充。任何提示格式错误会自动进入REJECTED字段,希望阻止此类行为。
- 内容分布:数据集主要用于ERP,因此色情场景占比较大,但也包含体育、冒险等内容以提供基准。
缺点和弱点
- 数据清洗:数据集未经过手动清洗,除了一些基本的查找和替换。
- 人工审核:数据集在爆发中被监督(某些内容通过审核或整个批次被拒绝),但大部分内容尚未被人类阅读。
- 过滤问题:一些选中的响应中AI代表用户行动,已移除可见的部分,但手动过滤量很大。尽管尽力避免,一些拒绝响应似乎具有某种特定语气,大部分已被移除。
目标
- 数据集用途:旨在用于生成更好的Iambe,能够生成更高质量的数据。
- 数据扩展:希望结合更多模型生成的数据,以不只放大Iambe的信号。
额外信息
- 训练笔记:提供了用于训练athirdpath/Iambe-20b-v3_TEST-RP_cDPO的笔记本,该笔记本在runpod上运行,改编自@maximelabonne的Kaggle(感谢!)。



