THUDM/BPO
收藏数据集卡片 for Black-box Prompt Optimization (BPO)
数据集描述
数据概述
为了推动语言模型与人类偏好的一致性发展,我们引入了一种黑盒对齐方法。BPO通过仅使用即插即用模型来增强各种大型语言模型(LLMs)与人类偏好的一致性。为了进一步从提示角度推动对齐工作,我们发布了BPO数据集。该数据集包含14,395条提示优化对,使用OpenAI的gpt-3.5-turbo引擎基于开源反馈数据构建。我们通过仔细的筛选和校正,确保了数据的质量和多样性。
支持的任务
BPO数据集设计用于提示优化/工程任务。由于我们仔细筛选和整理了数据集,它也是SFT或RLHF的良好选择。
语言
BPO数据集中的数据为英语。
数据结构
数据实例
一个"train"示例如下: json { "prompt": "Minimize the following data set [3, 4, 6, 7, 8, 10]", "optimized_prompt": "Provide a step-by-step solution to minimize the following data set: [3, 4, 6, 7, 8, 10].", "good_res": "To minimize the values in the given data set, which is a list of numbers, you could sort them in ascending order as follows: [3, 4, 6, 7, 8, 10]. The minimized (least) value in this data set would be 3.", "bad_res": "[3, 4, 6, 7, 8, 10]" }
数据字段
数据字段如下:
prompt: 原始用户输入optimized_prompt: 基于反馈优化的提示good_res: 人类选择的(偏好)响应bad_res: 人类拒绝的响应
数据分割
| train | valid | test | |
|---|---|---|---|
| BPO | 13895 | 300 | 200 |
其他信息
源数据
我们的反馈数据来自以下开源数据集:
其他已知限制
- 反馈数据质量:由于我们使用开源反馈数据,包含的人类偏好可能不完全准确。
- 任务多样性:尽管我们努力筛选并实现数据集的多样性,但这些开源数据集显然不足以覆盖广泛的查询类型。
- 优化提示:优化提示由
gpt-3.5-turbo基于反馈数据自动生成。尽管我们手动审查和修改了数据集,但我们不能保证所有提示优化都是正确的。
引用信息
@article{cheng2023black, title={Black-Box Prompt Optimization: Aligning Large Language Models without Model Training}, author={Cheng, Jiale and Liu, Xiao and Zheng, Kehan and Ke, Pei and Wang, Hongning and Dong, Yuxiao and Tang, Jie and Huang, Minlie}, journal={arXiv preprint arXiv:2311.04155}, year={2023} }




