five

thavens/ultrachat_7500_chars

收藏
Hugging Face2024-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/thavens/ultrachat_7500_chars
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 configs: - config_name: default data_files: - split: train_sft path: data/train_sft-* - split: test_sft path: data/test_sft-* - split: train_gen path: data/train_gen-* - split: test_gen path: data/test_gen-* dataset_info: features: - name: prompt dtype: string - name: prompt_id dtype: string - name: messages list: - name: content dtype: string - name: role dtype: string splits: - name: train_sft num_bytes: 1397024949.0507782 num_examples: 207860 - name: test_sft num_bytes: 154695659.0 num_examples: 23110 - name: train_gen num_bytes: 1347375761.556118 num_examples: 256028 - name: test_gen num_bytes: 148276089.0 num_examples: 28304 download_size: 1625328258 dataset_size: 3047372458.6068964 ---

许可证:Apache-2.0开源许可证 配置项: - 配置名称:default(默认配置) 数据文件: - 数据划分:训练监督微调(train_sft),路径:data/train_sft-* - 数据划分:测试监督微调(test_sft),路径:data/test_sft-* - 数据划分:训练生成(train_gen),路径:data/train_gen-* - 数据划分:测试生成(test_gen),路径:data/test_gen-* 数据集信息: 特征字段: - 字段名:提示词(prompt),数据类型:字符串 - 字段名:提示词ID(prompt_id),数据类型:字符串 - 字段名:对话消息(messages),数据类型为列表,列表内元素包含: - 字段名:消息内容(content),数据类型:字符串 - 字段名:消息角色(role),数据类型:字符串 数据拆分详情: - 划分名称:训练监督微调(train_sft),数据字节数:1397024949.0507782,样本总量:207860 - 划分名称:测试监督微调(test_sft),数据字节数:154695659.0,样本总量:23110 - 划分名称:训练生成(train_gen),数据字节数:1347375761.556118,样本总量:256028 - 划分名称:测试生成(test_gen),数据字节数:148276089.0,样本总量:28304 下载总大小:1625328258 字节 数据集总大小:3047372458.6068964 字节
提供机构:
thavens
原始信息汇总

数据集概述

许可证

  • Apache 2.0

配置

  • 默认配置
    • 数据文件路径:
      • train_sft: data/train_sft-*
      • test_sft: data/test_sft-*
      • train_gen: data/train_gen-*
      • test_gen: data/test_gen-*

数据集信息

  • 特征:

    • prompt: 字符串类型
    • prompt_id: 字符串类型
    • messages: 列表类型
      • content: 字符串类型
      • role: 字符串类型
  • 数据分割:

    • train_sft:
      • 字节数: 1397024949.0507782
      • 样本数: 207860
    • test_sft:
      • 字节数: 154695659.0
      • 样本数: 23110
    • train_gen:
      • 字节数: 1347375761.556118
      • 样本数: 256028
    • test_gen:
      • 字节数: 148276089.0
      • 样本数: 28304
  • 下载大小: 1625328258 字节

  • 数据集大小: 3047372458.6068964 字节

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作