five

redsgnaoh/orcaratspec

收藏
Hugging Face2024-07-22 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/redsgnaoh/orcaratspec
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个增强版的配对偏好学习数据集,名为Intel-ORCA-DPO。它包含了更具体、更详细的解释,说明为什么选择的响应比被拒绝的响应更受青睐。该数据集是根据一篇关于数据为中心的人类偏好优化与解释的论文生成的。

This is an enhanced version of the paired preference learning dataset based on Intel-ORCA-DPO, providing more specific and detailed explanations for why the chosen response is preferred over the rejected response. The dataset includes four main features: prompt, chosen, rejected, and rationale. It is divided into training and test sets, containing 11800 and 641 samples respectively. The generation of the dataset is based on the paper [Data-Centric Human Preference Optimization with Rationales](https://arxiv.org/pdf/2407.14477).
提供机构:
redsgnaoh
原始信息汇总

数据集概述

基本信息

  • 名称: orcaratspec
  • 别名: redsgnaoh/orcaratspec
  • 描述: 这是一个增强版的配对偏好学习数据集 Intel-ORCA-DPO,包含更具体和详细的解释,说明为什么选定的响应优于拒绝的响应。该数据集是根据论文《Data-Centric Human Preference Optimization with Rationales》生成的。
  • 创建者: Hoang Anh Just
  • 网址: https://hf-mirror.com/datasets/redsgnaoh/orcaratspec

数据集内容

  • 子集: default
    • 描述: redsgnaoh/orcaratspec - default 子集,包含2个分割:train, test
    • 字段:
      • default/prompt: 来自HF Mirror parquet文件的prompt列,数据类型为文本。
      • default/chosen: 来自HF Mirror parquet文件的chosen列,数据类型为文本。
      • default/rejected: 来自HF Mirror parquet文件的rejected列,数据类型为文本。
      • default/rationale: 来自HF Mirror parquet文件的rationale列,数据类型为文本。

数据格式

关键词

  • 10K - 100K
  • parquet
  • 文本
  • 数据集
  • pandas
  • Croissant
  • arxiv:2407.14477
  • 🇺🇸 区域: US

符合标准

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作