five

argilla/ultrafeedback-binarized-curation

收藏
Hugging Face2023-11-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/argilla/ultrafeedback-binarized-curation
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是基于UltraFeedback数据集进行处理的,主要目的是修复原始数据集中`overall_score`生成方式的错误。原始数据集中存在低质量响应获得高评分的问题,因此该数据集通过计算偏好评分的均值来选择最佳响应,并保留了基于`overall_score`的响应以供比较。数据集包含了多个特征,如`source`、`instruction`、`best_rated_is_different_from_best_overall`等,并且提供了详细的评分和注释信息。数据集的处理过程包括识别原始数据集中的错误、计算偏好评分的均值、选择最佳响应和随机响应等步骤。
提供机构:
argilla
原始信息汇总

数据集概述

数据集信息

  • 特征列表:
    • source: 字符串类型
    • instruction: 字符串类型
    • best_rated_is_different_from_best_overall: 布尔类型
    • best_overall_model: 字符串类型
    • score_best_overall: 浮点数类型
    • best_rated_model: 字符串类型
    • score_best_rated: 浮点数类型
    • best_overall_score_response: 结构体类型
      • annotations: 结构体类型
        • helpfulness: 结构体类型
          • Rating: 字符串类型
          • Rationale: 字符串类型
          • Rationale For Rating: 字符串类型
          • Type: 字符串序列类型
        • honesty: 结构体类型
          • Rating: 字符串类型
          • Rationale: 字符串类型
        • instruction_following: 结构体类型
          • Rating: 字符串类型
          • Rationale: 字符串类型
        • truthfulness: 结构体类型
          • Rating: 字符串类型
          • Rationale: 字符串类型
          • Rationale For Rating: 字符串类型
          • Type: 字符串序列类型
      • average_rating: 浮点数类型
      • critique: 字符串类型
      • custom_system_prompt: 字符串类型
      • model: 字符串类型
      • overall_score: 浮点数类型
      • principle: 字符串类型
      • response: 字符串类型
    • random_response_for_best_overall: 结构体类型
      • annotations: 结构体类型
        • helpfulness: 结构体类型
          • Rating: 字符串类型
          • Rationale: 字符串类型
          • Rationale For Rating: 字符串类型
          • Type: 字符串序列类型
        • honesty: 结构体类型
          • Rating: 字符串类型
          • Rationale: 字符串类型
        • instruction_following: 结构体类型
          • Rating: 字符串类型
          • Rationale: 字符串类型
        • truthfulness: 结构体类型
          • Rating: 字符串类型
          • Rationale: 字符串类型
          • Rationale For Rating: 字符串类型
          • Type: 字符串序列类型
      • average_rating: 浮点数类型
      • critique: 字符串类型
      • custom_system_prompt: 字符串类型
      • model: 字符串类型
      • overall_score: 浮点数类型
      • principle: 字符串类型
      • response: 字符串类型
    • best_rated_response: 结构体类型
      • annotations: 结构体类型
        • helpfulness: 结构体类型
          • Rating: 字符串类型
          • Rationale: 字符串类型
          • Rationale For Rating: 字符串类型
          • Type: 字符串序列类型
        • honesty: 结构体类型
          • Rating: 字符串类型
          • Rationale: 字符串类型
        • instruction_following: 结构体类型
          • Rating: 字符串类型
          • Rationale: 字符串类型
        • truthfulness: 结构体类型
          • Rating: 字符串类型
          • Rationale: 字符串类型
          • Rationale For Rating: 字符串类型
          • Type: 字符串序列类型
      • average_rating: 浮点数类型
      • critique: 字符串类型
      • custom_system_prompt: 字符串类型
      • model: 字符串类型
      • overall_score: 浮点数类型
      • principle: 字符串类型
      • response: 字符串类型
    • random_response_for_best_rated: 结构体类型
      • annotations: 结构体类型
        • helpfulness: 结构体类型
          • Rating: 字符串类型
          • Rationale: 字符串类型
          • Rationale For Rating: 字符串类型
          • Type: 字符串序列类型
        • honesty: 结构体类型
          • Rating: 字符串类型
          • Rationale: 字符串类型
        • instruction_following: 结构体类型
          • Rating: 字符串类型
          • Rationale: 字符串类型
        • truthfulness: 结构体类型
          • Rating: 字符串类型
          • Rationale: 字符串类型
          • Rationale For Rating: 字符串类型
          • Type: 字符串序列类型
      • average_rating: 浮点数类型
      • critique: 字符串类型
      • custom_system_prompt: 字符串类型
      • model: 字符串类型
      • overall_score: 浮点数类型
      • principle: 字符串类型
      • response: 字符串类型
    • score_random_response_for_best_overall: 浮点数类型
    • score_random_response_for_rated: 浮点数类型
    • completions: 列表类型
      • annotations: 结构体类型
        • helpfulness: 结构体类型
          • Rating: 字符串类型
          • Rationale: 字符串类型
          • Rationale For Rating: 字符串类型
          • Type: 字符串序列类型
        • honesty: 结构体类型
          • Rating: 字符串类型
          • Rationale: 字符串类型
        • instruction_following: 结构体类型
          • Rating: 字符串类型
          • Rationale: 字符串类型
        • truthfulness: 结构体类型
          • Rating: 字符串类型
          • Rationale: 字符串类型
          • Rationale For Rating: 字符串类型
          • Type: 字符串序列类型
      • average_rating: 浮点数类型
      • critique: 字符串类型
      • custom_system_prompt: 字符串类型
      • model: 字符串类型
      • overall_score: 浮点数类型
      • principle: 字符串类型
      • response: 字符串类型
    • random_response_for_rated: 浮点数类型
    • best_overall_score_response_critique_sentiment: 浮点数类型

数据集分割

  • 训练集:
    • 字节数: 1642965325
    • 样本数: 63967

数据集大小

  • 下载大小: 676228258
  • 数据集大小: 1642965325

配置

  • 默认配置:
    • 数据文件:
      • 分割: 训练集
      • 路径: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作