Mitsuki-Sakamoto/filter_dataset_test
收藏Hugging Face2024-03-15 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Mitsuki-Sakamoto/filter_dataset_test
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
config_name: test_1
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output
dtype: string
- name: preference
dtype: int64
- name: output_1
dtype: string
- name: output_2
dtype: string
- name: reward_model_prompt_format
dtype: string
- name: gen_prompt_format
dtype: string
- name: gen_kwargs
struct:
- name: do_sample
dtype: bool
- name: max_new_tokens
dtype: int64
- name: pad_token_id
dtype: int64
- name: top_k
dtype: int64
- name: top_p
dtype: float64
- name: reward_1
dtype: float64
- name: reward_2
dtype: float64
- name: prompt
dtype: string
- name: chosen
dtype: string
- name: rejected
dtype: string
- name: index
dtype: int64
- name: filtered_epoch
dtype: int64
- name: gen_reward
dtype: float64
- name: gen_response
dtype: string
splits:
- name: epoch_2
num_bytes: 64632
num_examples: 36
- name: epoch_1
num_bytes: 64630
num_examples: 37
download_size: 597370
dataset_size: 129262
configs:
- config_name: test_1
data_files:
- split: epoch_1
path: test_1/epoch_1-*
- split: epoch_2
path: test_1/epoch_2-*
---
数据集信息:
配置名称:test_1
特征:
- 名称:instruction,数据类型:字符串(string)
- 名称:input,数据类型:字符串(string)
- 名称:output,数据类型:字符串(string)
- 名称:preference,数据类型:64位整数(int64)
- 名称:output_1,数据类型:字符串(string)
- 名称:output_2,数据类型:字符串(string)
- 名称:reward_model_prompt_format,数据类型:字符串(string)
- 名称:gen_prompt_format,数据类型:字符串(string)
- 名称:gen_kwargs,数据类型:结构体(struct),其子特征包括:
- 名称:do_sample,数据类型:布尔值(bool)
- 名称:max_new_tokens,数据类型:64位整数(int64,最大生成令牌(Token)数)
- 名称:pad_token_id,数据类型:64位整数(int64,填充令牌(Token)ID)
- 名称:top_k,数据类型:64位整数(int64,Top-K采样参数)
- 名称:top_p,数据类型:64位浮点数(float64,Top-P采样阈值)
- 名称:reward_1,数据类型:64位浮点数(float64)
- 名称:reward_2,数据类型:64位浮点数(float64)
- 名称:prompt,数据类型:字符串(string)
- 名称:chosen,数据类型:字符串(string,优选响应)
- 名称:rejected,数据类型:字符串(string,拒选响应)
- 名称:index,数据类型:64位整数(int64)
- 名称:filtered_epoch,数据类型:64位整数(int64)
- 名称:gen_reward,数据类型:64位浮点数(float64)
- 名称:gen_response,数据类型:字符串(string)
数据划分:
- 划分名称:epoch_2,占用字节数:64632,样本数量:36
- 划分名称:epoch_1,占用字节数:64630,样本数量:37
下载总大小:597370 字节
数据集总占用大小:129262 字节
数据集配置:
- 配置名称:test_1,数据文件配置:
- 划分:epoch_1,数据路径:test_1/epoch_1-*
- 划分:epoch_2,数据路径:test_1/epoch_2-*
提供机构:
Mitsuki-Sakamoto
原始信息汇总
数据集概述
数据集配置
- 配置名称: test_1
数据集特征
- instruction: 数据类型为字符串
- input: 数据类型为字符串
- output: 数据类型为字符串
- preference: 数据类型为整数
- output_1: 数据类型为字符串
- output_2: 数据类型为字符串
- reward_model_prompt_format: 数据类型为字符串
- gen_prompt_format: 数据类型为字符串
- gen_kwargs: 结构化数据,包含以下子特征:
- do_sample: 数据类型为布尔值
- max_new_tokens: 数据类型为整数
- pad_token_id: 数据类型为整数
- top_k: 数据类型为整数
- top_p: 数据类型为浮点数
- reward_1: 数据类型为浮点数
- reward_2: 数据类型为浮点数
- prompt: 数据类型为字符串
- chosen: 数据类型为字符串
- rejected: 数据类型为字符串
- index: 数据类型为整数
- filtered_epoch: 数据类型为整数
- gen_reward: 数据类型为浮点数
- gen_response: 数据类型为字符串
数据集分割
- epoch_1: 包含37个示例,占用64630字节
- epoch_2: 包含36个示例,占用64632字节
数据集大小
- 下载大小: 597370字节
- 数据集大小: 129262字节
数据文件配置
- 配置名称: test_1
- 数据文件路径:
- epoch_1: test_1/epoch_1-*
- epoch_2: test_1/epoch_2-*



