jan-hq/distilabel_dpo_pairs_binarized
收藏Hugging Face2024-02-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jan-hq/distilabel_dpo_pairs_binarized
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
dataset_info:
features:
- name: chosen
list:
- name: content
dtype: string
- name: role
dtype: string
- name: rejected
list:
- name: content
dtype: string
- name: role
dtype: string
- name: messages
list:
- name: content
dtype: string
- name: role
dtype: string
splits:
- name: train
num_bytes: 65974024
num_examples: 12216
- name: test
num_bytes: 3714274
num_examples: 643
download_size: 36070342
dataset_size: 69688298
---
# Dataset Card for "distilabel_dpo_pairs_binarized"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
### 配置项
- 配置名称:default
数据文件:
- 拆分集:训练集(train),数据路径:`data/train-*`
- 拆分集:测试集(test),数据路径:`data/test-*`
### 数据集信息
#### 特征字段
1. **选中回复(chosen)**:列表类型,包含两个子字段:
- `content`:字符串类型,存储对话内容
- `role`:字符串类型,存储对话角色
2. **拒选回复(rejected)**:列表类型,包含两个子字段:
- `content`:字符串类型,存储被拒选的对话内容
- `role`:字符串类型,存储对应对话角色
3. **原始对话消息(messages)**:列表类型,包含两个子字段:
- `content`:字符串类型,存储对话内容
- `role`:字符串类型,存储对应对话角色
#### 数据拆分
- 训练集(train):数据字节数65,974,024,样本总量12,216
- 测试集(test):数据字节数3,714,274,样本总量643
下载总大小:36,070,342字节
数据集总大小:69,688,298字节
---
# 「distilabel_dpo_pairs_binarized」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
jan-hq
原始信息汇总
数据集概述
数据集配置
- 配置名称: default
- 数据文件:
- 训练集: data/train-*
- 测试集: data/test-*
数据集信息
-
特征:
- chosen:
- content: 字符串类型
- role: 字符串类型
- rejected:
- content: 字符串类型
- role: 字符串类型
- messages:
- content: 字符串类型
- role: 字符串类型
- chosen:
-
拆分:
- 训练集:
- 字节数: 65974024
- 样本数: 12216
- 测试集:
- 字节数: 3714274
- 样本数: 643
- 训练集:
-
下载大小: 36070342 字节
-
数据集大小: 69688298 字节



