davanstrien/dataset-tldr-preference-dpo

Name: davanstrien/dataset-tldr-preference-dpo
Creator: davanstrien
Published: 2024-04-30 15:04:22
License: 暂无描述

Hugging Face2024-04-30 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/davanstrien/dataset-tldr-preference-dpo

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在使用DPO/ORPO方法训练模型，生成机器学习数据集的简洁摘要。数据集通过distilabel工具创建，包含解析后的数据集卡片，并基于特定提示生成摘要。摘要由meta-llama/Meta-Llama-3-70B-Instruct和NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO模型生成，并使用UltraFeedback标准进行排名。数据集包含过滤后的子集，仅包含选择和被拒绝示例得分不同的样本。

提供机构：

davanstrien

原始信息汇总

数据集概述

数据集基本信息

名称: Dataset-tldr-preference-dpo
任务类别:
- 总结
- 文本生成
大小类别: n<1K
标签:
- 合成
- distilabel
- rlaif
- dpo
- orpo

数据集特征

datasetId: 字符串类型
card: 字符串类型
generation_models: 字符串序列类型
generations: 字符串序列类型
model_name: 字符串类型
ratings: 整数序列类型
rationales: 字符串序列类型
chosen: 字符串类型
rejected: 字符串类型
prompt: 字符串类型

数据集分割

训练集:
- 示例数量: 522
- 数据大小: 7181661.114068441 字节
- 下载大小: 3417972 字节

数据集配置

配置名称: default
数据文件:
- 分割: 训练
- 路径: data/train-*

数据集用途

用于训练模型使用DPO/ORPO，任务是根据数据集卡片生成机器学习数据集的简洁总结。
数据集中的每一行包含一个已解析的数据集卡片，去除了空部分和占位符文本。
使用meta-llama/Meta-Llama-3-70B-Instruct和NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO生成总结，并使用UltraFeedback标准进行排名。
此版本的数据集包含完整数据集的过滤子集，仅包括选定和拒绝示例之间得分不同的示例。

5,000+

优质数据集

54 个

任务类型

进入经典数据集