five

vwxyzjn/ultrachat_200k_filtered_1708458397

收藏
Hugging Face2024-02-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vwxyzjn/ultrachat_200k_filtered_1708458397
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: prompt dtype: string - name: prompt_id dtype: string - name: messages list: - name: content dtype: string - name: role dtype: string - name: query list: - name: content dtype: string - name: role dtype: string - name: query_token sequence: int64 - name: query_reference_response list: - name: content dtype: string - name: role dtype: string - name: query_reference_response_token sequence: int64 - name: query_reference_response_token_len dtype: int64 - name: query_token_len dtype: int64 - name: reference_response struct: - name: content dtype: string - name: role dtype: string - name: reference_response_token sequence: int64 - name: reference_response_token_len dtype: int64 splits: - name: test_sft num_bytes: 261099947.49017742 num_examples: 6446 - name: train_sft num_bytes: 2290549722.913689 num_examples: 56397 download_size: 521778862 dataset_size: 2551649670.403867 --- # Args ```python {'base_model': 'mistralai/Mistral-7B-v0.1', 'check_length_correctness': True, 'debug': False, 'hf_entity': 'vwxyzjn', 'params': TaskQueryHParams(length=None, format_str='SUBREDDIT: r/{subreddit}\n' '\n' 'TITLE: {title}\n' '\n' 'POST: {post}\n' '\n' 'TL;DR:', truncate_field='post', truncate_text='\n', padding='pad_token', pad_token=[32000], pad_side='left', max_query_length=1024, max_sft_query_response_length=1280, max_sft_response_length=256, max_rm_query_response_length=1280, max_rm_response_length=256), 'push_to_hub': True} ```

### 数据集信息 该数据集的特征字段如下: 1. `prompt`(提示):数据类型为字符串 2. `prompt_id`(提示ID):数据类型为字符串 3. `messages`(对话消息列表):为列表数据类型,其元素包含两个字段: - `content`(内容):字符串类型 - `role`(角色):字符串类型 4. `query`(查询列表):为列表数据类型,其元素包含: - `content`(内容):字符串类型 - `role`(角色):字符串类型 5. `query_token`(查询Token序列):数据类型为64位整数序列 6. `query_reference_response`(查询参考响应列表):为列表数据类型,其元素包含: - `content`(内容):字符串类型 - `role`(角色):字符串类型 7. `query_reference_response_token`(查询参考响应Token序列):数据类型为64位整数序列 8. `query_reference_response_token_len`(查询参考响应Token长度):数据类型为64位整数 9. `query_token_len`(查询Token长度):数据类型为64位整数 10. `reference_response`(参考响应结构体):为结构体数据类型,内部字段包括: - `content`(内容):字符串类型 - `role`(角色):字符串类型 11. `reference_response_token`(参考响应Token序列):数据类型为64位整数序列 12. `reference_response_token_len`(参考响应Token长度):数据类型为64位整数 该数据集的数据划分如下: 1. `test_sft`(监督微调测试集):数据字节数为261099947.49017742,样本总量为6446 2. `train_sft`(监督微调训练集):数据字节数为2290549722.913689,样本总量为56397 数据集下载大小为521778862,总数据集大小为2551649670.403867 --- ### 运行参数 python { 'base_model': 'mistralai/Mistral-7B-v0.1', # 基础模型:mistralai/Mistral-7B-v0.1 'check_length_correctness': True, # 开启长度正确性校验 'debug': False, # 关闭调试模式 'hf_entity': 'vwxyzjn', # Hugging Face 实体账号:vwxyzjn 'params': TaskQueryHParams( # 任务查询超参数(TaskQueryHParams) length=None, format_str='SUBREDDIT: r/{subreddit} TITLE: {title} POST: {post} TL;DR:', # 格式化模板:子版块:r/{subreddit} 标题:{title} 帖子:{post} TL;DR: truncate_field='post', # 截断字段:帖子(post) truncate_text=' ', # 截断文本:换行符 padding='pad_token', # 填充方式:Token填充 pad_token=[32000], # 填充Token值:[32000] pad_side='left', # 填充方向:左侧填充 max_query_length=1024, # 最大查询长度:1024 max_sft_query_response_length=1280, # 监督微调场景下查询-响应最大总长度:1280 max_sft_response_length=256, # 监督微调场景下响应最大长度:256 max_rm_query_response_length=1280, # 奖励模型场景下查询-响应最大总长度:1280 max_rm_response_length=256 # 奖励模型场景下响应最大长度:256 ), 'push_to_hub': True # 启用推送至Hugging Face Hub }
提供机构:
vwxyzjn
原始信息汇总

数据集概述

特征信息

  • prompt: 字符串类型
  • prompt_id: 字符串类型
  • messages: 列表类型,包含以下字段:
    • content: 字符串类型
    • role: 字符串类型
  • query: 列表类型,包含以下字段:
    • content: 字符串类型
    • role: 字符串类型
  • query_token: 整数序列类型
  • query_reference_response: 列表类型,包含以下字段:
    • content: 字符串类型
    • role: 字符串类型
  • query_reference_response_token: 整数序列类型
  • query_reference_response_token_len: 整数类型
  • query_token_len: 整数类型
  • reference_response: 结构类型,包含以下字段:
    • content: 字符串类型
    • role: 字符串类型
  • reference_response_token: 整数序列类型
  • reference_response_token_len: 整数类型

数据分割

  • test_sft:
    • 字节数: 261099947.49017742
    • 样本数: 6446
  • train_sft:
    • 字节数: 2290549722.913689
    • 样本数: 56397

数据集大小

  • 下载大小: 521778862 字节
  • 数据集大小: 2551649670.403867 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作