vwxyzjn/cai-conversation-prod-h4-harmless
收藏Hugging Face2023-12-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vwxyzjn/cai-conversation-prod-h4-harmless
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: train_sft
path: data/train_sft-*
- split: test_sft
path: data/test_sft-*
- split: train_prefs
path: data/train_prefs-*
- split: test_prefs
path: data/test_prefs-*
dataset_info:
features:
- name: index
dtype: int64
- name: prompt
dtype: string
- name: init_prompt
struct:
- name: content
dtype: string
- name: role
dtype: string
- name: init_response
struct:
- name: content
dtype: string
- name: role
dtype: string
- name: critic_prompt
struct:
- name: content
dtype: string
- name: role
dtype: string
- name: critic_response
struct:
- name: content
dtype: string
- name: role
dtype: string
- name: revision_prompt
struct:
- name: content
dtype: string
- name: role
dtype: string
- name: revision_response
struct:
- name: content
dtype: string
- name: role
dtype: string
- name: messages
list:
- name: content
dtype: string
- name: role
dtype: string
- name: chosen
list:
- name: content
dtype: string
- name: role
dtype: string
- name: rejected
list:
- name: content
dtype: string
- name: role
dtype: string
splits:
- name: train_sft
num_bytes: 80509011.39550994
num_examples: 21289
- name: test_sft
num_bytes: 4409523.340505145
num_examples: 1156
- name: train_prefs
num_bytes: 80509011.39550994
num_examples: 21289
- name: test_prefs
num_bytes: 4413337.807062675
num_examples: 1157
download_size: 52332286
dataset_size: 169840883.93858773
---
# Dataset Card for "cai-conversation-prod-h4-harmless"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
### 配置项
- 配置名称:default
数据文件:
- 数据集划分:train_sft
路径:data/train_sft-*
- 数据集划分:test_sft
路径:data/test_sft-*
- 数据集划分:train_prefs
路径:data/train_prefs-*
- 数据集划分:test_prefs
路径:data/test_prefs-*
### 数据集信息
特征:
- 名称:index
数据类型:int64
- 名称:prompt
数据类型:字符串
- 名称:init_prompt
结构体:
- 名称:content
数据类型:字符串
- 名称:role
数据类型:字符串
- 名称:init_response
结构体:
- 名称:content
数据类型:字符串
- 名称:role
数据类型:字符串
- 名称:critic_prompt
结构体:
- 名称:content
数据类型:字符串
- 名称:role
数据类型:字符串
- 名称:critic_response
结构体:
- 名称:content
数据类型:字符串
- 名称:role
数据类型:字符串
- 名称:revision_prompt
结构体:
- 名称:content
数据类型:字符串
- 名称:role
数据类型:字符串
- 名称:revision_response
结构体:
- 名称:content
数据类型:字符串
- 名称:role
数据类型:字符串
- 名称:messages
列表:
- 名称:content
数据类型:字符串
- 名称:role
数据类型:字符串
- 名称:chosen
列表:
- 名称:content
数据类型:字符串
- 名称:role
数据类型:字符串
- 名称:rejected
列表:
- 名称:content
数据类型:字符串
- 名称:role
数据类型:字符串
数据集划分详情:
- 划分名称:train_sft
字节大小:80509011.39550994
样本数量:21289
- 划分名称:test_sft
字节大小:4409523.340505145
样本数量:1156
- 划分名称:train_prefs
字节大小:80509011.39550994
样本数量:21289
- 划分名称:test_prefs
字节大小:4413337.807062675
样本数量:1157
下载大小:52332286
数据集总大小:169840883.93858773
---
# 「cai-conversation-prod-h4-harmless」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
vwxyzjn
原始信息汇总
数据集概述
数据集配置
- 默认配置:
- 数据文件:
train_sft:路径为data/train_sft-*test_sft:路径为data/test_sft-*train_prefs:路径为data/train_prefs-*test_prefs:路径为data/test_prefs-*
- 数据文件:
数据集信息
- 特征:
index:类型为int64prompt:类型为stringinit_prompt:结构包含content(类型为string)和role(类型为string)init_response:结构包含content(类型为string)和role(类型为string)critic_prompt:结构包含content(类型为string)和role(类型为string)critic_response:结构包含content(类型为string)和role(类型为string)revision_prompt:结构包含content(类型为string)和role(类型为string)revision_response:结构包含content(类型为string)和role(类型为string)messages:列表包含content(类型为string)和role(类型为string)chosen:列表包含content(类型为string)和role(类型为string)rejected:列表包含content(类型为string)和role(类型为string)
数据集拆分
- 拆分信息:
train_sft:字节数为80509011.39550994,样本数为21289test_sft:字节数为4409523.340505145,样本数为1156train_prefs:字节数为80509011.39550994,样本数为21289test_prefs:字节数为4413337.807062675,样本数为1157
数据集大小
- 下载大小:
52332286字节 - 数据集大小:
169840883.93858773字节



