five

vwxyzjn/ultrachat_200k_filtered_1708702930

收藏
Hugging Face2024-02-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vwxyzjn/ultrachat_200k_filtered_1708702930
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: prompt dtype: string - name: prompt_id dtype: string - name: messages list: - name: content dtype: string - name: role dtype: string - name: query list: - name: content dtype: string - name: role dtype: string - name: query_token sequence: int64 - name: query_reference_response list: - name: content dtype: string - name: role dtype: string - name: query_reference_response_token sequence: int64 - name: query_reference_response_token_len dtype: int64 - name: query_token_len dtype: int64 - name: reference_response struct: - name: content dtype: string - name: role dtype: string - name: reference_response_token sequence: int64 - name: reference_response_token_len dtype: int64 splits: - name: test_sft num_bytes: 316901441.18498486 num_examples: 7903 - name: train_sft num_bytes: 2789113290.9141316 num_examples: 69371 download_size: 688953460 dataset_size: 3106014732.0991163 --- # Args ```python {'base_model': 'EleutherAI/pythia-6.9b-deduped', 'check_length_correctness': True, 'debug': False, 'hf_entity': 'vwxyzjn', 'params': TaskQueryHParams(length=None, format_str='SUBREDDIT: r/{subreddit}\n' '\n' 'TITLE: {title}\n' '\n' 'POST: {post}\n' '\n' 'TL;DR:', truncate_field='post', truncate_text='\n', padding='pad_token', pad_token=[50277], pad_side='left', max_query_length=1024, max_sft_query_response_length=1280, max_sft_response_length=256, max_rm_query_response_length=1280, max_rm_response_length=256), 'push_to_hub': True} ```

## 数据集信息 该数据集的特征字段如下: 1. **prompt**:提示词,数据类型为字符串 2. **prompt_id**:提示词唯一标识符,数据类型为字符串 3. **messages**:列表类型,列表元素为结构体,包含`content`(内容,字符串类型)与`role`(角色,字符串类型)两个子字段 4. **query**:列表类型,列表元素包含`content`(内容,字符串类型)与`role`(角色,字符串类型)两个子字段 5. **query_token**:64位整数序列 6. **query_reference_response**:列表类型,列表元素包含`content`(内容,字符串类型)与`role`(角色,字符串类型)两个子字段 7. **query_reference_response_token**:64位整数序列 8. **query_reference_response_token_len**:64位整数类型,用于存储查询参考响应的Token长度 9. **query_token_len**:64位整数类型,用于存储查询的Token长度 10. **reference_response**:结构体类型,包含`content`(内容,字符串类型)与`role`(角色,字符串类型)两个子字段 11. **reference_response_token**:64位整数序列 12. **reference_response_token_len**:64位整数类型,用于存储参考响应的Token长度 该数据集的划分情况如下: - **test_sft**:监督微调(Supervised Fine-Tuning,SFT)测试集,占用存储空间为316901441.18498486字节,共包含7903条样本 - **train_sft**:监督微调(SFT)训练集,占用存储空间为2789113290.9141316字节,共包含69371条样本 该数据集的下载大小为688953460字节,总数据集存储大小为3106014732.0991163字节。 --- ## 运行参数 python {'base_model': 'EleutherAI/pythia-6.9b-deduped', 'check_length_correctness': True, 'debug': False, 'hf_entity': 'vwxyzjn', 'params': TaskQueryHParams(length=None, format_str='SUBREDDIT: r/{subreddit} TITLE: {title} POST: {post} TL;DR:', truncate_field='post', truncate_text=' ', padding='pad_token', pad_token=[50277], pad_side='left', max_query_length=1024, max_sft_query_response_length=1280, max_sft_response_length=256, max_rm_query_response_length=1280, max_rm_response_length=256), 'push_to_hub': True} 其中各参数含义如下: - `base_model`:使用的基础模型为`EleutherAI/pythia-6.9b-deduped` - `check_length_correctness`:开启长度正确性检查 - `debug`:关闭调试模式 - `hf_entity`:Hugging Face Hub的实体账号为`vwxyzjn` - `params`:任务查询超参数(TaskQueryHParams),具体配置为: - `length`:无指定长度 - `format_str`:输入格式化模板为`SUBREDDIT: r/{subreddit} TITLE: {title} POST: {post} TL;DR:` - `truncate_field`:需要截断的字段为`post` - `truncate_text`:截断补全文本为` ` - `padding`:填充方式为`pad_token` - `pad_token`:使用的填充Token为`[50277]` - `pad_side`:填充方向为左侧 - `max_query_length`:最大查询Token长度为1024 - `max_sft_query_response_length`:最大监督微调查询响应Token长度为1280 - `max_sft_response_length`:最大监督微调响应Token长度为256 - `max_rm_query_response_length`:最大奖励模型(Reward Model,RM)查询响应Token长度为1280 - `max_rm_response_length`:最大奖励模型响应Token长度为256 - `push_to_hub`:开启推送到Hugging Face Hub功能
提供机构:
vwxyzjn
原始信息汇总

数据集概述

数据集特征

  • prompt: 字符串类型
  • prompt_id: 字符串类型
  • messages: 列表类型,包含以下字段:
    • content: 字符串类型
    • role: 字符串类型
  • query: 列表类型,包含以下字段:
    • content: 字符串类型
    • role: 字符串类型
  • query_token: 整数序列类型
  • query_reference_response: 列表类型,包含以下字段:
    • content: 字符串类型
    • role: 字符串类型
  • query_reference_response_token: 整数序列类型
  • query_reference_response_token_len: 整数类型
  • query_token_len: 整数类型
  • reference_response: 结构体类型,包含以下字段:
    • content: 字符串类型
    • role: 字符串类型
  • reference_response_token: 整数序列类型
  • reference_response_token_len: 整数类型

数据集划分

  • test_sft:
    • 字节数: 316901441.18498486
    • 样本数: 7903
  • train_sft:
    • 字节数: 2789113290.9141316
    • 样本数: 69371

数据集大小

  • 下载大小: 688953460 字节
  • 数据集大小: 3106014732.0991163 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作