kykim0/dpo-mix-7k-5p
收藏Hugging Face2024-04-25 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/kykim0/dpo-mix-7k-5p
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
dataset_info:
features:
- name: dataset
dtype: string
- name: chosen
list:
- name: content
dtype: string
- name: role
dtype: string
- name: rejected
list:
- name: content
dtype: string
- name: role
dtype: string
- name: chosen_rating
dtype: float64
- name: rejected_rating
dtype: float64
- name: flip
dtype: bool
splits:
- name: train
num_bytes: 41363790
num_examples: 6750
- name: test
num_bytes: 4586902
num_examples: 750
download_size: 24221273
dataset_size: 45950692
---
# Dataset Card for "dpo-mix-7k-5p"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
配置项:
- 配置名称:default
数据文件:
- 数据集拆分:train,路径:data/train-*
- 数据集拆分:test,路径:data/test-*
数据集信息:
特征字段:
- 字段名:dataset,数据类型:字符串
- 字段名:chosen,为列表类型,列表包含以下子字段:
- 子字段名:content,数据类型:字符串
- 子字段名:role,数据类型:字符串
- 字段名:rejected,为列表类型,列表包含以下子字段:
- 子字段名:content,数据类型:字符串
- 子字段名:role,数据类型:字符串
- 字段名:chosen_rating,数据类型:64位浮点数(float64)
- 字段名:rejected_rating,数据类型:64位浮点数(float64)
- 字段名:flip,数据类型:布尔型(bool)
数据集拆分:
- 拆分名称:train,总字节数:41363790,样本数量:6750
- 拆分名称:test,总字节数:4586902,样本数量:750
下载总大小:24221273,数据集总存储大小:45950692
---
# 「dpo-mix-7k-5p」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
kykim0
原始信息汇总
数据集概述
数据集配置
- 默认配置 (
config_name: default)- 训练数据 (
split: train):data/train-* - 测试数据 (
split: test):data/test-*
- 训练数据 (
数据集信息
-
特征 (
features)- dataset: 数据类型为字符串 (
dtype: string) - chosen: 包含两个子特征
- content: 数据类型为字符串 (
dtype: string) - role: 数据类型为字符串 (
dtype: string)
- content: 数据类型为字符串 (
- rejected: 包含两个子特征
- content: 数据类型为字符串 (
dtype: string) - role: 数据类型为字符串 (
dtype: string)
- content: 数据类型为字符串 (
- chosen_rating: 数据类型为浮点数 (
dtype: float64) - rejected_rating: 数据类型为浮点数 (
dtype: float64) - flip: 数据类型为布尔值 (
dtype: bool)
- dataset: 数据类型为字符串 (
-
数据分割 (
splits)- 训练集 (
name: train)- 大小: 41363790字节
- 示例数量: 6750
- 测试集 (
name: test)- 大小: 4586902字节
- 示例数量: 750
- 训练集 (
-
下载大小: 24221273字节
-
数据集大小: 45950692字节



