five

HuggingFaceH4/deita-6k-v0-sft

收藏
Hugging Face2024-01-09 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/HuggingFaceH4/deita-6k-v0-sft
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: prompt dtype: string - name: prompt_id dtype: string - name: messages list: - name: content dtype: string - name: role dtype: string splits: - name: train_sft num_bytes: 282384543.6 num_examples: 5700 - name: test_sft num_bytes: 14862344.4 num_examples: 300 - name: train_gen num_bytes: 276218301 num_examples: 5700 - name: test_gen num_bytes: 13232842 num_examples: 300 download_size: 232332840 dataset_size: 586698031.0 configs: - config_name: default data_files: - split: train_sft path: data/train_sft-* - split: test_sft path: data/test_sft-* - split: train_gen path: data/train_gen-* - split: test_gen path: data/test_gen-* ---

数据集信息: 特征字段: - 名称:提示词(prompt),数据类型:字符串类型 - 名称:提示词ID(prompt_id),数据类型:字符串类型 - 名称:对话消息(messages),数据类型为列表,列表元素包含: - 名称:内容(content),数据类型:字符串类型 - 名称:角色(role),数据类型:字符串类型 数据集划分: - 划分名称:监督微调训练集(train_sft),字节占用量:282384543.6,样本总数:5700 - 划分名称:监督微调测试集(test_sft),字节占用量:14862344.4,样本总数:300 - 划分名称:生成式训练集(train_gen),字节占用量:276218301,样本总数:5700 - 划分名称:生成式测试集(test_gen),字节占用量:13232842,样本总数:300 下载总大小:232332840,数据集总占用大小:586698031.0 配置项: - 配置名称:默认配置(default),数据文件配置: - 对应划分:train_sft,文件路径:data/train_sft-* - 对应划分:test_sft,文件路径:data/test_sft-* - 对应划分:train_gen,文件路径:data/train_gen-* - 对应划分:test_gen,文件路径:data/test_gen-*
提供机构:
HuggingFaceH4
原始信息汇总

数据集概述

数据集特征

  • prompt: 字符串类型
  • prompt_id: 字符串类型
  • messages: 列表类型
    • content: 字符串类型
    • role: 字符串类型

数据集分割

  • train_sft:
    • 字节数: 282384543.6
    • 样本数: 5700
  • test_sft:
    • 字节数: 14862344.4
    • 样本数: 300
  • train_gen:
    • 字节数: 276218301
    • 样本数: 5700
  • test_gen:
    • 字节数: 13232842
    • 样本数: 300

数据集大小

  • 下载大小: 232332840 字节
  • 数据集大小: 586698031.0 字节

配置

  • default 配置:
    • train_sft: data/train_sft-*
    • test_sft: data/test_sft-*
    • train_gen: data/train_gen-*
    • test_gen: data/test_gen-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作