UCLAML/RPO-Iter2-New-312_generated

Name: UCLAML/RPO-Iter2-New-312_generated
Creator: UCLAML
Published: 2024-04-23 06:28:53
License: 暂无描述

Hugging Face2024-04-23 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/UCLAML/RPO-Iter2-New-312_generated

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: prompt_id dtype: string - name: prompt dtype: string - name: chosen list: - name: content dtype: string - name: role dtype: string - name: rejected list: - name: content dtype: string - name: role dtype: string - name: all_generated_responses sequence: string - name: all_rm_scores sequence: float64 - name: probability sequence: sequence: float64 - name: rm_scores sequence: float32 - name: chosen_probs_win dtype: float64 - name: chosen_probs_lose dtype: float64 - name: chosen_probs dtype: float64 - name: g dtype: int64 - name: generate_0 list: - name: content dtype: string - name: role dtype: string - name: generate_1 list: - name: content dtype: string - name: role dtype: string - name: generate_2 list: - name: content dtype: string - name: role dtype: string - name: generate_3 list: - name: content dtype: string - name: role dtype: string - name: generate_4 list: - name: content dtype: string - name: role dtype: string splits: - name: train num_bytes: 643009441 num_examples: 19996 download_size: 330016951 dataset_size: 643009441 configs: - config_name: default data_files: - split: train path: data/train-* --- # Dataset Card for "RPO-Iter2-New-312_generated" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

数据集信息：特征字段： - 名称：提示ID（prompt_id），数据类型：字符串（string） - 名称：提示文本（prompt），数据类型：字符串（string） - 名称：优选响应（chosen），为列表类型，包含： - 名称：内容（content），数据类型：字符串（string） - 名称：角色（role），数据类型：字符串（string） - 名称：弃选响应（rejected），为列表类型，包含： - 名称：内容（content），数据类型：字符串（string） - 名称：角色（role），数据类型：字符串（string） - 名称：所有生成响应（all_generated_responses），为字符串序列 - 名称：所有奖励模型评分（all_rm_scores），为float64类型序列 - 名称：概率（probability），为嵌套的float64类型序列 - 名称：奖励模型评分（rm_scores），为float32类型序列 - 名称：优选响应获胜概率（chosen_probs_win），数据类型：float64 - 名称：优选响应落败概率（chosen_probs_lose），数据类型：float64 - 名称：优选响应概率（chosen_probs），数据类型：float64 - 名称：g，数据类型：整数型（int64） - 名称：生成响应0（generate_0），为列表类型，包含： - 名称：内容（content），数据类型：字符串（string） - 名称：角色（role），数据类型：字符串（string） - 名称：生成响应1（generate_1），为列表类型，包含： - 名称：内容（content），数据类型：字符串（string） - 名称：角色（role），数据类型：字符串（string） - 名称：生成响应2（generate_2），为列表类型，包含： - 名称：内容（content），数据类型：字符串（string） - 名称：角色（role），数据类型：字符串（string） - 名称：生成响应3（generate_3），为列表类型，包含： - 名称：内容（content），数据类型：字符串（string） - 名称：角色（role），数据类型：字符串（string） - 名称：生成响应4（generate_4），为列表类型，包含： - 名称：内容（content），数据类型：字符串（string） - 名称：角色（role），数据类型：字符串（string）数据集划分： - 划分名称：训练集（train），字节数：643009441，样本数量：19996 下载大小：330016951 数据集总大小：643009441 配置项： - 配置名称：默认配置（default），数据文件： - 划分：训练集（train），文件路径：data/train-* # 数据集卡片："RPO-Iter2-New-312_generated" [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

UCLAML

原始信息汇总

数据集概述

数据集信息

特征

prompt_id: 字符串类型
prompt: 字符串类型
chosen: 列表类型
- content: 字符串类型
- role: 字符串类型
rejected: 列表类型
- content: 字符串类型
- role: 字符串类型
all_generated_responses: 字符串序列
all_rm_scores: 浮点数序列 (float64)
probability: 嵌套浮点数序列 (float64)
rm_scores: 浮点数序列 (float32)
chosen_probs_win: 浮点数类型 (float64)
chosen_probs_lose: 浮点数类型 (float64)
chosen_probs: 浮点数类型 (float64)
g: 整数类型 (int64)
generate_0: 列表类型
- content: 字符串类型
- role: 字符串类型
generate_1: 列表类型
- content: 字符串类型
- role: 字符串类型
generate_2: 列表类型
- content: 字符串类型
- role: 字符串类型
generate_3: 列表类型
- content: 字符串类型
- role: 字符串类型
generate_4: 列表类型
- content: 字符串类型
- role: 字符串类型

数据分割

train:
- 字节数: 643009441
- 样本数: 19996

数据集大小

下载大小: 330016951 字节
数据集大小: 643009441 字节

配置

default:
- 数据文件:
  - 分割: train
  - 路径: data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集