ShenaoZ/001_ablation_5iters_bs256_nodpo_dataset
收藏Hugging Face2024-04-24 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ShenaoZ/001_ablation_5iters_bs256_nodpo_dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: prompt
dtype: string
- name: prompt_id
dtype: string
- name: messages
list:
- name: content
dtype: string
- name: role
dtype: string
- name: score_chosen
dtype: float64
- name: score_rejected
dtype: float64
- name: reference_response
dtype: string
- name: chosen
list:
- name: content
dtype: string
- name: role
dtype: string
- name: rejected
list:
- name: content
dtype: string
- name: role
dtype: string
splits:
- name: test_prefs_1
num_bytes: 15193743
num_examples: 2000
- name: train_prefs_1
num_bytes: 93282680
num_examples: 12227
- name: test_prefs_2
num_bytes: 17468288
num_examples: 2000
- name: train_prefs_2
num_bytes: 105946578
num_examples: 12227
- name: test_prefs_3
num_bytes: 16798123
num_examples: 2000
- name: train_prefs_3
num_bytes: 103387589
num_examples: 12227
- name: test_prefs_4
num_bytes: 16707704
num_examples: 2000
- name: train_prefs_4
num_bytes: 102543780
num_examples: 12227
- name: test_prefs_5
num_bytes: 16807618
num_examples: 2000
download_size: 267961464
dataset_size: 488136103
configs:
- config_name: default
data_files:
- split: test_prefs_1
path: data/test_prefs_1-*
- split: train_prefs_1
path: data/train_prefs_1-*
- split: test_prefs_2
path: data/test_prefs_2-*
- split: train_prefs_2
path: data/train_prefs_2-*
- split: test_prefs_3
path: data/test_prefs_3-*
- split: train_prefs_3
path: data/train_prefs_3-*
- split: test_prefs_4
path: data/test_prefs_4-*
- split: train_prefs_4
path: data/train_prefs_4-*
- split: test_prefs_5
path: data/test_prefs_5-*
---
# Dataset Card for "0.001_ablation_5iters_bs256_nodpo_dataset"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
## 数据集信息
### 特征字段
本数据集包含以下特征字段:
1. **提示词(prompt)**:数据类型为字符串
2. **提示词ID(prompt_id)**:数据类型为字符串
3. **消息(messages)**:列表类型,列表内每个元素为包含以下两个字段的结构体:
- **内容(content)**:数据类型为字符串
- **角色(role)**:数据类型为字符串
4. **选中回复得分(score_chosen)**:数据类型为64位浮点型(float64)
5. **拒选回复得分(score_rejected)**:数据类型为64位浮点型(float64)
6. **参考回复(reference_response)**:数据类型为字符串
7. **选中回复(chosen)**:列表类型,列表内每个元素为包含以下两个字段的结构体:
- **内容(content)**:数据类型为字符串
- **角色(role)**:数据类型为字符串
8. **拒选回复(rejected)**:列表类型,列表内每个元素为包含以下两个字段的结构体:
- **内容(content)**:数据类型为字符串
- **角色(role)**:数据类型为字符串
### 数据划分
各数据划分的详细信息如下:
| 划分名称 | 字节数 | 样本数量 |
|----------------|--------------|----------|
| test_prefs_1 | 15193743 | 2000 |
| train_prefs_1 | 93282680 | 12227 |
| test_prefs_2 | 17468288 | 2000 |
| train_prefs_2 | 105946578 | 12227 |
| test_prefs_3 | 16798123 | 2000 |
| train_prefs_3 | 103387589 | 12227 |
| test_prefs_4 | 16707704 | 2000 |
| train_prefs_4 | 102543780 | 12227 |
| test_prefs_5 | 16807618 | 2000 |
整体数据集参数:
- 下载大小:267961464 字节
- 数据集总大小:488136103 字节
### 配置项
本数据集仅包含一个默认配置(default),各数据划分对应的数据文件路径如下:
- 划分 test_prefs_1:对应数据路径为 `data/test_prefs_1-*`
- 划分 train_prefs_1:对应数据路径为 `data/train_prefs_1-*`
- 划分 test_prefs_2:对应数据路径为 `data/test_prefs_2-*`
- 划分 train_prefs_2:对应数据路径为 `data/train_prefs_2-*`
- 划分 test_prefs_3:对应数据路径为 `data/test_prefs_3-*`
- 划分 train_prefs_3:对应数据路径为 `data/train_prefs_3-*`
- 划分 test_prefs_4:对应数据路径为 `data/test_prefs_4-*`
- 划分 train_prefs_4:对应数据路径为 `data/train_prefs_4-*`
- 划分 test_prefs_5:对应数据路径为 `data/test_prefs_5-*`
---
# "0.001_ablation_5iters_bs256_nodpo_dataset"数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
ShenaoZ
原始信息汇总
数据集概述
数据集名称
"0.001_ablation_5iters_bs256_nodpo_dataset"
数据集特征
- prompt: 数据类型为字符串
- prompt_id: 数据类型为字符串
- messages: 包含以下子特征
- content: 数据类型为字符串
- role: 数据类型为字符串
- score_chosen: 数据类型为float64
- score_rejected: 数据类型为float64
- reference_response: 数据类型为字符串
- chosen: 包含以下子特征
- content: 数据类型为字符串
- role: 数据类型为字符串
- rejected: 包含以下子特征
- content: 数据类型为字符串
- role: 数据类型为字符串
数据集分割
- test_prefs_1: 大小为15193743字节,包含2000个示例
- train_prefs_1: 大小为93282680字节,包含12227个示例
- test_prefs_2: 大小为17468288字节,包含2000个示例
- train_prefs_2: 大小为105946578字节,包含12227个示例
- test_prefs_3: 大小为16798123字节,包含2000个示例
- train_prefs_3: 大小为103387589字节,包含12227个示例
- test_prefs_4: 大小为16707704字节,包含2000个示例
- train_prefs_4: 大小为102543780字节,包含12227个示例
- test_prefs_5: 大小为16807618字节,包含2000个示例
数据集大小
- 下载大小: 267961464字节
- 数据集大小: 488136103字节
数据文件配置
- config_name: default
- data_files: 包含多个分割的数据文件路径
- 各分割对应的路径格式为 "data/分割名称-*"



