ShenaoZ/0.0001_ablation_4iters_bs256_dataset

Name: ShenaoZ/0.0001_ablation_4iters_bs256_dataset
Creator: ShenaoZ
Published: 2024-04-22 09:30:43
License: 暂无描述

Hugging Face2024-04-22 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/ShenaoZ/0.0001_ablation_4iters_bs256_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: prompt dtype: string - name: prompt_id dtype: string - name: messages list: - name: content dtype: string - name: role dtype: string - name: score_chosen dtype: float64 - name: score_rejected dtype: float64 - name: reference_response dtype: string - name: chosen list: - name: content dtype: string - name: role dtype: string - name: rejected list: - name: content dtype: string - name: role dtype: string splits: - name: test_prefs_1 num_bytes: 17324928 num_examples: 2000 - name: train_prefs_1 num_bytes: 132033790 num_examples: 15283 - name: test_prefs_2 num_bytes: 16871929 num_examples: 2000 - name: train_prefs_2 num_bytes: 130078238 num_examples: 15283 - name: test_prefs_3 num_bytes: 16754969 num_examples: 2000 - name: train_prefs_3 num_bytes: 128946078 num_examples: 15283 download_size: 243024374 dataset_size: 442009932 configs: - config_name: default data_files: - split: test_prefs_1 path: data/test_prefs_1-* - split: train_prefs_1 path: data/train_prefs_1-* - split: test_prefs_2 path: data/test_prefs_2-* - split: train_prefs_2 path: data/train_prefs_2-* - split: test_prefs_3 path: data/test_prefs_3-* - split: train_prefs_3 path: data/train_prefs_3-* --- # Dataset Card for "0.0001_ablation_4iters_bs256_dataset" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

数据集信息：特征： - 名称：提示词（prompt），数据类型：字符串 - 名称：提示词ID（prompt_id），数据类型：字符串 - 名称：消息列表（messages），列表元素结构： - 名称：内容（content），数据类型：字符串 - 名称：角色（role），数据类型：字符串 - 名称：优选回复得分（score_chosen），数据类型：float64 - 名称：拒选回复得分（score_rejected），数据类型：float64 - 名称：参考回复（reference_response），数据类型：字符串 - 名称：优选回复列表（chosen），列表元素结构： - 名称：内容（content），数据类型：字符串 - 名称：角色（role），数据类型：字符串 - 名称：拒选回复列表（rejected），列表元素结构： - 名称：内容（content），数据类型：字符串 - 名称：角色（role），数据类型：字符串数据集划分： - 名称：test_prefs_1，字节占用：17324928，样本数量：2000 - 名称：train_prefs_1，字节占用：132033790，样本数量：15283 - 名称：test_prefs_2，字节占用：16871929，样本数量：2000 - 名称：train_prefs_2，字节占用：130078238，样本数量：15283 - 名称：test_prefs_3，字节占用：16754969，样本数量：2000 - 名称：train_prefs_3，字节占用：128946078，样本数量：15283 下载总大小：243024374 字节数据集总存储大小：442009932 字节数据集配置： - 配置名称：default（默认配置）数据文件映射： - 数据集划分：test_prefs_1，文件路径：data/test_prefs_1-* - 数据集划分：train_prefs_1，文件路径：data/train_prefs_1-* - 数据集划分：test_prefs_2，文件路径：data/test_prefs_2-* - 数据集划分：train_prefs_2，文件路径：data/train_prefs_2-* - 数据集划分：test_prefs_3，文件路径：data/test_prefs_3-* - 数据集划分：train_prefs_3，文件路径：data/train_prefs_3-* --- # "0.0001_ablation_4iters_bs256_dataset"数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

ShenaoZ

原始信息汇总

数据集概述

数据集特征

prompt：字符串类型
prompt_id：字符串类型
messages：列表类型，包含：
- content：字符串类型
- role：字符串类型
score_chosen：浮点数类型（float64）
score_rejected：浮点数类型（float64）
reference_response：字符串类型
chosen：列表类型，包含：
- content：字符串类型
- role：字符串类型
rejected：列表类型，包含：
- content：字符串类型
- role：字符串类型

数据集分割

test_prefs_1：
- 字节数：17324928
- 示例数：2000
train_prefs_1：
- 字节数：132033790
- 示例数：15283
test_prefs_2：
- 字节数：16871929
- 示例数：2000
train_prefs_2：
- 字节数：130078238
- 示例数：15283
test_prefs_3：
- 字节数：16754969
- 示例数：2000
train_prefs_3：
- 字节数：128946078
- 示例数：15283

数据集大小

下载大小：243024374字节
数据集大小：442009932字节

配置信息

config_name：default
data_files：
- split：test_prefs_1, train_prefs_1, test_prefs_2, train_prefs_2, test_prefs_3, train_prefs_3
- path：data/test_prefs_1-, data/train_prefs_1-, data/test_prefs_2-, data/train_prefs_2-, data/test_prefs_3-, data/train_prefs_3-

5,000+

优质数据集

54 个

任务类型

进入经典数据集