five

Trelis/dpo-mix-7k-SHORT

收藏
Hugging Face2024-05-11 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Trelis/dpo-mix-7k-SHORT
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个缩短版的argilla/dpo-mix-7k数据集,通过过滤掉超过2000字符的选定内容和超过500字符的最终助手消息内容来缩短。该数据集的目的是通过过滤仅高评分的选定响应来获得一个高质量的小型DPO数据集。数据集混合了三个不同的数据集,每个数据集的样本都是随机选择的,比例为0.33。未来的步骤包括添加更多样本和使用数据选择技术来提高数据集的多样性、有用性和复杂性。

这是一个缩短版的argilla/dpo-mix-7k数据集,通过过滤掉超过2000字符的选定内容和超过500字符的最终助手消息内容来缩短。该数据集的目的是通过过滤仅高评分的选定响应来获得一个高质量的小型DPO数据集。数据集混合了三个不同的数据集,每个数据集的样本都是随机选择的,比例为0.33。未来的步骤包括添加更多样本和使用数据选择技术来提高数据集的多样性、有用性和复杂性。
提供机构:
Trelis
原始信息汇总

数据集概述

基本信息

  • 名称: argilla/dpo-mix-7k
  • 语言: 英语
  • 许可证: MIT
  • 大小: 1K<n<10K
  • 配置:
    • 默认配置:
      • 训练数据路径: data/train-*
      • 测试数据路径: data/test-*

数据集特征

  • dataset: 字符串类型
  • chosen:
    • content: 字符串类型
    • role: 字符串类型
  • rejected:
    • content: 字符串类型
    • role: 字符串类型
  • chosen_rating: 浮点数类型
  • rejected_rating: 浮点数类型

数据集拆分

  • 训练集:
    • 示例数量: 1700
    • 字节数: 10417334.548148148
  • 测试集:
    • 示例数量: 190
    • 字节数: 1161991.36

数据集大小

  • 下载大小: 2017077字节
  • 数据集大小: 11579325.908148147字节

数据集来源

  • 混合数据集:
    • argilla/distilabel-capybara-dpo-7k-binarized
    • argilla/distilabel-intel-orca-dpo-pairs
    • argilla/ultrafeedback-binarized-preferences-cleaned

数据集特点

  • 过滤了所有选择的content超过2000字符的行。
  • 过滤了所有最终助手消息的content超过500字符的行。

未来计划

  • 增加更多样本
  • 使用数据选择技术以提高数据集的多样性、有用性和复杂性。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作