ZHLiu627/ultrafeedback_binarized_with_response_full_part1
收藏Hugging Face2024-03-08 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/ZHLiu627/ultrafeedback_binarized_with_response_full_part1
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: prompt
dtype: string
- name: prompt_id
dtype: string
- name: chosen
list:
- name: content
dtype: string
- name: role
dtype: string
- name: rejected
list:
- name: content
dtype: string
- name: role
dtype: string
- name: messages
list:
- name: content
dtype: string
- name: role
dtype: string
- name: score_chosen
dtype: float64
- name: score_rejected
dtype: float64
- name: reference_response
dtype: string
splits:
- name: train_prefs
num_bytes: 167825271
num_examples: 20000
download_size: 93223431
dataset_size: 167825271
configs:
- config_name: default
data_files:
- split: train_prefs
path: data/train_prefs-*
---
# Dataset Card for "ultrafeedback_binarized_with_response_full_part1"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
数据集信息:
特征字段:
1. 提示词(prompt):数据类型为字符串
2. prompt_id:数据类型为字符串
3. 已选回复(chosen):列表类型,包含两个子字段:
- content:回复内容,数据类型为字符串
- role:发言角色,数据类型为字符串
4. 拒选回复(rejected):列表类型,包含两个子字段:
- content:回复内容,数据类型为字符串
- role:发言角色,数据类型为字符串
5. 对话消息(messages):列表类型,包含两个子字段:
- content:消息内容,数据类型为字符串
- role:发言角色,数据类型为字符串
6. 已选回复得分(score_chosen):数据类型为64位浮点型
7. 拒选回复得分(score_rejected):数据类型为64位浮点型
8. 参考回复(reference_response):数据类型为字符串
数据划分:
- 训练偏好集(train_prefs):字节数167825271,样本总数20000
下载大小:93223431
数据集总字节数:167825271
配置项:
- 默认配置(default):数据文件路径为`data/train_prefs-*`,对应数据划分为`train_prefs`
---
# 数据集卡片:ultrafeedback_binarized_with_response_full_part1
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
ZHLiu627
原始信息汇总
数据集概述
数据集信息
-
特征列表:
prompt: 字符串类型prompt_id: 字符串类型chosen: 列表类型,包含以下字段:content: 字符串类型role: 字符串类型
rejected: 列表类型,包含以下字段:content: 字符串类型role: 字符串类型
messages: 列表类型,包含以下字段:content: 字符串类型role: 字符串类型
score_chosen: 浮点数类型score_rejected: 浮点数类型reference_response: 字符串类型
-
数据分割:
train_prefs:- 字节数: 167825271
- 样本数: 20000
-
数据集大小:
- 下载大小: 93223431 字节
- 数据集大小: 167825271 字节
配置信息
- 默认配置:
- 数据文件:
- 分割:
train_prefs - 路径:
data/train_prefs-*
- 分割:
- 数据文件:



