athirdpath/DPO_Pairs-Roleplay-Alpaca-NSFW-v1-SHUFFLED

收藏

Hugging Face2023-12-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/athirdpath/DPO_Pairs-Roleplay-Alpaca-NSFW-v1-SHUFFLED

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含约3.4k个DPO对，由Iambe和GPT-4生成，其中GPT-4占约10%，Iambe占约80%（q5_k_m）和约10%（q6_k）。数据集主要用于ERP（企业资源规划），其中包含大量情色场景，但也有体育、冒险等内容作为基线。数据集未经过手动清理，尽管已经进行了一些基本的搜索和替换操作，但大部分内容尚未被人阅读。数据集的目标是用于改进Iambe模型，使其能够生成更高质量的数据。

该数据集包含约3.4k个DPO对，由Iambe和GPT-4生成，其中GPT-4占约10%，Iambe占约80%（q5_k_m）和约10%（q6_k）。数据集主要用于ERP（企业资源规划），其中包含大量情色场景，但也有体育、冒险等内容作为基线。数据集未经过手动清理，尽管已经进行了一些基本的搜索和替换操作，但大部分内容尚未被人阅读。数据集的目标是用于改进Iambe模型，使其能够生成更高质量的数据。

提供机构：

athirdpath

原始信息汇总

数据集描述

数据量：约3.4k个DPO（直接偏好优化）对。
生成方式：由Iambe结合GPT-4生成（约10% GPT-4，约80% Iambe @ q5_k_m / 约10% Iambe @ q6_k），使用温度1.2和最小概率0.15。
数据处理：数据已被打乱，因为之前未意识到TRL不会自动打乱数据，直到在损失模式中看到数据集的变动。
生成细节：每个对的选中和拒绝响应是同时从单个两部分提示生成的（不是数据集中的提示）。只有少数几对未能生成拒绝响应，这些情况下使用标准的“作为AI”风格拒绝填充。任何提示格式错误会自动进入REJECTED字段，希望阻止此类行为。
内容分布：数据集主要用于ERP，因此色情场景占比较大，但也包含体育、冒险等内容以提供基准。

缺点和弱点

数据清洗：数据集未经过手动清洗，除了一些基本的查找和替换。
人工审核：数据集在爆发中被监督（某些内容通过审核或整个批次被拒绝），但大部分内容尚未被人类阅读。
过滤问题：一些选中的响应中AI代表用户行动，已移除可见的部分，但手动过滤量很大。尽管尽力避免，一些拒绝响应似乎具有某种特定语气，大部分已被移除。

目标

数据集用途：旨在用于生成更好的Iambe，能够生成更高质量的数据。
数据扩展：希望结合更多模型生成的数据，以不只放大Iambe的信号。

额外信息

训练笔记：提供了用于训练athirdpath/Iambe-20b-v3_TEST-RP_cDPO的笔记本，该笔记本在runpod上运行，改编自@maximelabonne的Kaggle（感谢！）。

5,000+

优质数据集

54 个

任务类型

进入经典数据集

© 2023-2025 上海数据发展科技有限责任公司版权所有

沪ICP备17003045号-15 沪公网安备31010402336585号

二维码

社区交流群

面向社区/商业的数据集话题

二维码

科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作