ibndias/distilabel-capybara-dpo-7k-binarized

Name: ibndias/distilabel-capybara-dpo-7k-binarized
Creator: ibndias
Published: 2024-02-14 01:52:01
License: 暂无描述

Hugging Face2024-02-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ibndias/distilabel-capybara-dpo-7k-binarized

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: source dtype: string - name: conversation list: - name: input dtype: string - name: output dtype: string - name: original_response dtype: string - name: generation_prompt sequence: string - name: raw_generation_responses sequence: string - name: new_generations sequence: string - name: prompt dtype: string - name: chosen list: - name: content dtype: string - name: role dtype: string - name: rejected list: - name: content dtype: string - name: role dtype: string - name: rating_chosen dtype: int64 - name: rating_rejected dtype: int64 - name: chosen_model dtype: string - name: rejected_model dtype: string splits: - name: train num_bytes: 348791651 num_examples: 7563 download_size: 155776373 dataset_size: 348791651 configs: - config_name: default data_files: - split: train path: data/train-* ---

数据集信息：特征字段： - 字段名：来源（source），数据类型：字符串（string） - 字段名：对话（conversation），类型为列表，包含子字段： - 字段名：输入（input），数据类型：字符串（string） - 字段名：输出（output），数据类型：字符串（string） - 字段名：原始响应（original_response），数据类型：字符串（string） - 字段名：生成提示（generation_prompt），数据类型：字符串序列（sequence<string>） - 字段名：原始生成响应（raw_generation_responses），数据类型：字符串序列（sequence<string>） - 字段名：新生成结果（new_generations），数据类型：字符串序列（sequence<string>） - 字段名：提示词（prompt），数据类型：字符串（string） - 字段名：选中项（chosen），类型为列表，包含子字段： - 字段名：内容（content），数据类型：字符串（string） - 字段名：角色（role），数据类型：字符串（string） - 字段名：拒选项（rejected），类型为列表，包含子字段： - 字段名：内容（content），数据类型：字符串（string） - 字段名：角色（role），数据类型：字符串（string） - 字段名：选中项评分（rating_chosen），数据类型：64位整型（int64） - 字段名：拒选项评分（rating_rejected），数据类型：64位整型（int64） - 字段名：选中模型（chosen_model），数据类型：字符串（string） - 字段名：拒选模型（rejected_model），数据类型：字符串（string）数据集划分： - 划分名称：训练集（train），字节大小：348791651，样本数量：7563 下载总大小：155776373 数据集总大小：348791651 配置项： - 配置名称：默认（default），数据文件： - 划分：训练集（train），文件路径：data/train-*

提供机构：

ibndias

原始信息汇总

数据集信息

特征

source: 数据类型为字符串。
conversation: 包含以下子特征：
- input: 数据类型为字符串。
- output: 数据类型为字符串。
original_response: 数据类型为字符串。
generation_prompt: 数据类型为字符串序列。
raw_generation_responses: 数据类型为字符串序列。
new_generations: 数据类型为字符串序列。
prompt: 数据类型为字符串。
chosen: 包含以下子特征：
- content: 数据类型为字符串。
- role: 数据类型为字符串。
rejected: 包含以下子特征：
- content: 数据类型为字符串。
- role: 数据类型为字符串。
rating_chosen: 数据类型为64位整数。
rating_rejected: 数据类型为64位整数。
chosen_model: 数据类型为字符串。
rejected_model: 数据类型为字符串。

数据分割

train: 包含7563个样本，占用348791651字节。

数据集大小

下载大小: 155776373字节。
数据集大小: 348791651字节。

配置

default: 包含训练数据文件，路径为data/train-*。

5,000+

优质数据集

54 个

任务类型

进入经典数据集