five

hqfx/tulu_v2

收藏
Hugging Face2024-01-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hqfx/tulu_v2
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: conversation list: - name: content dtype: string - name: role dtype: string splits: - name: science.scierc_ner num_bytes: 634623 num_examples: 349 - name: sharegpt num_bytes: 826685526 num_examples: 74312 - name: science.scifact_json num_bytes: 2350372 num_examples: 919 - name: lima num_bytes: 2847761 num_examples: 1018 - name: gpt4_alpaca num_bytes: 16166613 num_examples: 19906 - name: science.evidence_inference num_bytes: 6623765 num_examples: 1674 - name: oasst1 num_bytes: 11497333 num_examples: 7331 - name: science.scitldr_aic num_bytes: 13404075 num_examples: 1959 - name: science.scierc_relation num_bytes: 735295 num_examples: 349 - name: science.qasper_truncated_4000 num_bytes: 35171822 num_examples: 2218 - name: hard_coded num_bytes: 71030 num_examples: 140 - name: code_alpaca num_bytes: 7112342 num_examples: 20016 - name: cot num_bytes: 56130437 num_examples: 49747 - name: wizardlm num_bytes: 69904382 num_examples: 29810 - name: open_orca num_bytes: 53121184 num_examples: 29683 - name: flan_v2 num_bytes: 105696294 num_examples: 49123 download_size: 541137401 dataset_size: 1208152854 configs: - config_name: default data_files: - split: science.scierc_ner path: data/science.scierc_ner-* - split: sharegpt path: data/sharegpt-* - split: science.scifact_json path: data/science.scifact_json-* - split: lima path: data/lima-* - split: gpt4_alpaca path: data/gpt4_alpaca-* - split: science.evidence_inference path: data/science.evidence_inference-* - split: oasst1 path: data/oasst1-* - split: science.scitldr_aic path: data/science.scitldr_aic-* - split: science.scierc_relation path: data/science.scierc_relation-* - split: science.qasper_truncated_4000 path: data/science.qasper_truncated_4000-* - split: hard_coded path: data/hard_coded-* - split: code_alpaca path: data/code_alpaca-* - split: cot path: data/cot-* - split: wizardlm path: data/wizardlm-* - split: open_orca path: data/open_orca-* - split: flan_v2 path: data/flan_v2-* ---
提供机构:
hqfx
原始信息汇总

数据集概述

数据集特征

  • 名称: conversation
    • 内容:
      • 名称: content
        • 数据类型: string
      • 名称: role
        • 数据类型: string

数据集分割

  • 名称: science.scierc_ner
    • 字节数: 634623
    • 样本数: 349
  • 名称: sharegpt
    • 字节数: 826685526
    • 样本数: 74312
  • 名称: science.scifact_json
    • 字节数: 2350372
    • 样本数: 919
  • 名称: lima
    • 字节数: 2847761
    • 样本数: 1018
  • 名称: gpt4_alpaca
    • 字节数: 16166613
    • 样本数: 19906
  • 名称: science.evidence_inference
    • 字节数: 6623765
    • 样本数: 1674
  • 名称: oasst1
    • 字节数: 11497333
    • 样本数: 7331
  • 名称: science.scitldr_aic
    • 字节数: 13404075
    • 样本数: 1959
  • 名称: science.scierc_relation
    • 字节数: 735295
    • 样本数: 349
  • 名称: science.qasper_truncated_4000
    • 字节数: 35171822
    • 样本数: 2218
  • 名称: hard_coded
    • 字节数: 71030
    • 样本数: 140
  • 名称: code_alpaca
    • 字节数: 7112342
    • 样本数: 20016
  • 名称: cot
    • 字节数: 56130437
    • 样本数: 49747
  • 名称: wizardlm
    • 字节数: 69904382
    • 样本数: 29810
  • 名称: open_orca
    • 字节数: 53121184
    • 样本数: 29683
  • 名称: flan_v2
    • 字节数: 105696294
    • 样本数: 49123

数据集大小

  • 下载大小: 541137401 字节
  • 数据集大小: 1208152854 字节

配置信息

  • 配置名称: default
    • 数据文件:
      • 分割: science.scierc_ner
        • 路径: data/science.scierc_ner-*
      • 分割: sharegpt
        • 路径: data/sharegpt-*
      • 分割: science.scifact_json
        • 路径: data/science.scifact_json-*
      • 分割: lima
        • 路径: data/lima-*
      • 分割: gpt4_alpaca
        • 路径: data/gpt4_alpaca-*
      • 分割: science.evidence_inference
        • 路径: data/science.evidence_inference-*
      • 分割: oasst1
        • 路径: data/oasst1-*
      • 分割: science.scitldr_aic
        • 路径: data/science.scitldr_aic-*
      • 分割: science.scierc_relation
        • 路径: data/science.scierc_relation-*
      • 分割: science.qasper_truncated_4000
        • 路径: data/science.qasper_truncated_4000-*
      • 分割: hard_coded
        • 路径: data/hard_coded-*
      • 分割: code_alpaca
        • 路径: data/code_alpaca-*
      • 分割: cot
        • 路径: data/cot-*
      • 分割: wizardlm
        • 路径: data/wizardlm-*
      • 分割: open_orca
        • 路径: data/open_orca-*
      • 分割: flan_v2
        • 路径: data/flan_v2-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作