jondurbin/py-dpo-v0.1
收藏Hugging Face2024-01-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jondurbin/py-dpo-v0.1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集旨在增强Python编程能力。它使用了一个已验证的Python代码数据集作为chosen响应,而rejected响应则是由airoboros-l2-13b-3.1和bagel-7b-v0.1生成的。虽然这些rejected响应可能在某些情况下是有效的,但通常认为它们的质量低于chosen响应。此外,重复的代码块已被移除。
许可证:CC BY 4.0(知识共享署名4.0协议)
语言:编程语言
### 数据集概览
直接偏好优化(Direct Preference Optimization,DPO)数据集,旨在提升Python编程能力。
本数据集选用已通过充分测试与验证的优质数据集https://huggingface.co/datasets/Vezora/Tested-22k-Python-Alpaca作为「优选回复(chosen)」的来源。
「非优选回复(rejected)」由airoboros-l2-13b-3.1与bagel-7b-v0.1混合生成。
尽管非优选回复本身未必存在质量问题,但本数据集默认其整体质量劣于对应的优选回复。已移除包含重复代码块的数据项。
### 贡献与支持
若您对新增功能或数据集感兴趣,可访问[bagel代码仓库](https://github.com/jondurbin/bagel)与[airoboros项目](https://github.com/jondurbin/airoboros),提交拉取请求(PR)或详细提交议题。
若您愿意支持我的微调成本、数据集生成等相关工作,可通过以下任一方式进行捐助:
- https://bmc.link/jondurbin
- 以太坊地址:0xce914eAFC2fe52FdceE59565Dd92c06f776fcb11
- 比特币地址:bc1qdwuth4vlg8x37ggntlxu5cjfwgmdy5zaa7pswf
提供机构:
jondurbin
原始信息汇总
数据集概述
数据集名称
DPO数据集
数据集目的
用于提升Python编程能力



