davanstrien/dataset-tldr-preference-dpo
收藏Hugging Face2024-04-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/davanstrien/dataset-tldr-preference-dpo
下载链接
链接失效反馈官方服务:
资源简介:
该数据集旨在使用DPO/ORPO方法训练模型,生成机器学习数据集的简洁摘要。数据集通过distilabel工具创建,包含解析后的数据集卡片,并基于特定提示生成摘要。摘要由meta-llama/Meta-Llama-3-70B-Instruct和NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO模型生成,并使用UltraFeedback标准进行排名。数据集包含过滤后的子集,仅包含选择和被拒绝示例得分不同的样本。
该数据集旨在使用DPO/ORPO方法训练模型,生成机器学习数据集的简洁摘要。数据集通过distilabel工具创建,包含解析后的数据集卡片,并基于特定提示生成摘要。摘要由meta-llama/Meta-Llama-3-70B-Instruct和NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO模型生成,并使用UltraFeedback标准进行排名。数据集包含过滤后的子集,仅包含选择和被拒绝示例得分不同的样本。
提供机构:
davanstrien
原始信息汇总
数据集概述
数据集基本信息
- 名称: Dataset-tldr-preference-dpo
- 任务类别:
- 总结
- 文本生成
- 大小类别: n<1K
- 标签:
- 合成
- distilabel
- rlaif
- dpo
- orpo
数据集特征
- datasetId: 字符串类型
- card: 字符串类型
- generation_models: 字符串序列类型
- generations: 字符串序列类型
- model_name: 字符串类型
- ratings: 整数序列类型
- rationales: 字符串序列类型
- chosen: 字符串类型
- rejected: 字符串类型
- prompt: 字符串类型
数据集分割
- 训练集:
- 示例数量: 522
- 数据大小: 7181661.114068441 字节
- 下载大小: 3417972 字节
数据集配置
- 配置名称: default
- 数据文件:
- 分割: 训练
- 路径: data/train-*
数据集用途
- 用于训练模型使用DPO/ORPO,任务是根据数据集卡片生成机器学习数据集的简洁总结。
- 数据集中的每一行包含一个已解析的数据集卡片,去除了空部分和占位符文本。
- 使用meta-llama/Meta-Llama-3-70B-Instruct和NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO生成总结,并使用UltraFeedback标准进行排名。
- 此版本的数据集包含完整数据集的过滤子集,仅包括选定和拒绝示例之间得分不同的示例。



