vwxyzjn/ultrachat_200k_filtered_1708702930

Name: vwxyzjn/ultrachat_200k_filtered_1708702930
Creator: vwxyzjn
Published: 2024-02-23 15:53:26
License: 暂无描述

Hugging Face2024-02-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/vwxyzjn/ultrachat_200k_filtered_1708702930

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: prompt dtype: string - name: prompt_id dtype: string - name: messages list: - name: content dtype: string - name: role dtype: string - name: query list: - name: content dtype: string - name: role dtype: string - name: query_token sequence: int64 - name: query_reference_response list: - name: content dtype: string - name: role dtype: string - name: query_reference_response_token sequence: int64 - name: query_reference_response_token_len dtype: int64 - name: query_token_len dtype: int64 - name: reference_response struct: - name: content dtype: string - name: role dtype: string - name: reference_response_token sequence: int64 - name: reference_response_token_len dtype: int64 splits: - name: test_sft num_bytes: 316901441.18498486 num_examples: 7903 - name: train_sft num_bytes: 2789113290.9141316 num_examples: 69371 download_size: 688953460 dataset_size: 3106014732.0991163 --- # Args ```python {'base_model': 'EleutherAI/pythia-6.9b-deduped', 'check_length_correctness': True, 'debug': False, 'hf_entity': 'vwxyzjn', 'params': TaskQueryHParams(length=None, format_str='SUBREDDIT: r/{subreddit}\n' '\n' 'TITLE: {title}\n' '\n' 'POST: {post}\n' '\n' 'TL;DR:', truncate_field='post', truncate_text='\n', padding='pad_token', pad_token=[50277], pad_side='left', max_query_length=1024, max_sft_query_response_length=1280, max_sft_response_length=256, max_rm_query_response_length=1280, max_rm_response_length=256), 'push_to_hub': True} ```

## 数据集信息该数据集的特征字段如下： 1. **prompt**：提示词，数据类型为字符串 2. **prompt_id**：提示词唯一标识符，数据类型为字符串 3. **messages**：列表类型，列表元素为结构体，包含`content`（内容，字符串类型）与`role`（角色，字符串类型）两个子字段 4. **query**：列表类型，列表元素包含`content`（内容，字符串类型）与`role`（角色，字符串类型）两个子字段 5. **query_token**：64位整数序列 6. **query_reference_response**：列表类型，列表元素包含`content`（内容，字符串类型）与`role`（角色，字符串类型）两个子字段 7. **query_reference_response_token**：64位整数序列 8. **query_reference_response_token_len**：64位整数类型，用于存储查询参考响应的Token长度 9. **query_token_len**：64位整数类型，用于存储查询的Token长度 10. **reference_response**：结构体类型，包含`content`（内容，字符串类型）与`role`（角色，字符串类型）两个子字段 11. **reference_response_token**：64位整数序列 12. **reference_response_token_len**：64位整数类型，用于存储参考响应的Token长度该数据集的划分情况如下： - **test_sft**：监督微调（Supervised Fine-Tuning，SFT）测试集，占用存储空间为316901441.18498486字节，共包含7903条样本 - **train_sft**：监督微调（SFT）训练集，占用存储空间为2789113290.9141316字节，共包含69371条样本该数据集的下载大小为688953460字节，总数据集存储大小为3106014732.0991163字节。 --- ## 运行参数 python {'base_model': 'EleutherAI/pythia-6.9b-deduped', 'check_length_correctness': True, 'debug': False, 'hf_entity': 'vwxyzjn', 'params': TaskQueryHParams(length=None, format_str='SUBREDDIT: r/{subreddit} TITLE: {title} POST: {post} TL;DR:', truncate_field='post', truncate_text=' ', padding='pad_token', pad_token=[50277], pad_side='left', max_query_length=1024, max_sft_query_response_length=1280, max_sft_response_length=256, max_rm_query_response_length=1280, max_rm_response_length=256), 'push_to_hub': True} 其中各参数含义如下： - `base_model`：使用的基础模型为`EleutherAI/pythia-6.9b-deduped` - `check_length_correctness`：开启长度正确性检查 - `debug`：关闭调试模式 - `hf_entity`：Hugging Face Hub的实体账号为`vwxyzjn` - `params`：任务查询超参数（TaskQueryHParams），具体配置为： - `length`：无指定长度 - `format_str`：输入格式化模板为`SUBREDDIT: r/{subreddit} TITLE: {title} POST: {post} TL;DR:` - `truncate_field`：需要截断的字段为`post` - `truncate_text`：截断补全文本为` ` - `padding`：填充方式为`pad_token` - `pad_token`：使用的填充Token为`[50277]` - `pad_side`：填充方向为左侧 - `max_query_length`：最大查询Token长度为1024 - `max_sft_query_response_length`：最大监督微调查询响应Token长度为1280 - `max_sft_response_length`：最大监督微调响应Token长度为256 - `max_rm_query_response_length`：最大奖励模型（Reward Model，RM）查询响应Token长度为1280 - `max_rm_response_length`：最大奖励模型响应Token长度为256 - `push_to_hub`：开启推送到Hugging Face Hub功能

提供机构：

vwxyzjn

原始信息汇总

数据集概述

数据集特征

prompt: 字符串类型
prompt_id: 字符串类型
messages: 列表类型，包含以下字段：
- content: 字符串类型
- role: 字符串类型
query: 列表类型，包含以下字段：
- content: 字符串类型
- role: 字符串类型
query_token: 整数序列类型
query_reference_response: 列表类型，包含以下字段：
- content: 字符串类型
- role: 字符串类型
query_reference_response_token: 整数序列类型
query_reference_response_token_len: 整数类型
query_token_len: 整数类型
reference_response: 结构体类型，包含以下字段：
- content: 字符串类型
- role: 字符串类型
reference_response_token: 整数序列类型
reference_response_token_len: 整数类型

数据集划分

test_sft:
- 字节数: 316901441.18498486
- 样本数: 7903
train_sft:
- 字节数: 2789113290.9141316
- 样本数: 69371

数据集大小

下载大小: 688953460 字节
数据集大小: 3106014732.0991163 字节

5,000+

优质数据集

54 个

任务类型

进入经典数据集