five

davanstrien/dataset-tldr-preference-dpo

收藏
Hugging Face2024-04-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/davanstrien/dataset-tldr-preference-dpo
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集旨在使用DPO/ORPO方法训练模型,生成机器学习数据集的简洁摘要。数据集通过distilabel工具创建,包含解析后的数据集卡片,并基于特定提示生成摘要。摘要由meta-llama/Meta-Llama-3-70B-Instruct和NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO模型生成,并使用UltraFeedback标准进行排名。数据集包含过滤后的子集,仅包含选择和被拒绝示例得分不同的样本。

该数据集旨在使用DPO/ORPO方法训练模型,生成机器学习数据集的简洁摘要。数据集通过distilabel工具创建,包含解析后的数据集卡片,并基于特定提示生成摘要。摘要由meta-llama/Meta-Llama-3-70B-Instruct和NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO模型生成,并使用UltraFeedback标准进行排名。数据集包含过滤后的子集,仅包含选择和被拒绝示例得分不同的样本。
提供机构:
davanstrien
原始信息汇总

数据集概述

数据集基本信息

  • 名称: Dataset-tldr-preference-dpo
  • 任务类别:
    • 总结
    • 文本生成
  • 大小类别: n<1K
  • 标签:
    • 合成
    • distilabel
    • rlaif
    • dpo
    • orpo

数据集特征

  • datasetId: 字符串类型
  • card: 字符串类型
  • generation_models: 字符串序列类型
  • generations: 字符串序列类型
  • model_name: 字符串类型
  • ratings: 整数序列类型
  • rationales: 字符串序列类型
  • chosen: 字符串类型
  • rejected: 字符串类型
  • prompt: 字符串类型

数据集分割

  • 训练集:
    • 示例数量: 522
    • 数据大小: 7181661.114068441 字节
    • 下载大小: 3417972 字节

数据集配置

  • 配置名称: default
  • 数据文件:
    • 分割: 训练
    • 路径: data/train-*

数据集用途

  • 用于训练模型使用DPO/ORPO,任务是根据数据集卡片生成机器学习数据集的简洁总结。
  • 数据集中的每一行包含一个已解析的数据集卡片,去除了空部分和占位符文本。
  • 使用meta-llama/Meta-Llama-3-70B-InstructNousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO生成总结,并使用UltraFeedback标准进行排名。
  • 此版本的数据集包含完整数据集的过滤子集,仅包括选定和拒绝示例之间得分不同的示例。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作