five

LNTANOooo/tulu_v3

收藏
Hugging Face2024-03-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/LNTANOooo/tulu_v3
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: conversation list: - name: content dtype: string - name: role dtype: string splits: - name: science.scierc_ner num_bytes: 634623.0 num_examples: 349 - name: sharegpt num_bytes: 776319873.4338813 num_examples: 72413 - name: science.scifact_json num_bytes: 2350372.0 num_examples: 919 - name: lima num_bytes: 2815967.0 num_examples: 1012 - name: gpt4_alpaca num_bytes: 16091564.0 num_examples: 19834 - name: science.evidence_inference num_bytes: 6620099.0 num_examples: 1673 - name: oasst1 num_bytes: 11027612.499452954 num_examples: 7046 - name: science.scitldr_aic num_bytes: 13392412.0 num_examples: 1957 - name: science.scierc_relation num_bytes: 735295.0 num_examples: 349 - name: science.qasper_truncated_4000 num_bytes: 34952831.0 num_examples: 2204 - name: hard_coded num_bytes: 44940.0 num_examples: 90 - name: code_alpaca num_bytes: 7102581.0 num_examples: 19992 - name: cot num_bytes: 56091350.817187 num_examples: 49709 - name: wizardlm num_bytes: 69442958.16317087 num_examples: 29597 - name: open_orca num_bytes: 52677835.20356853 num_examples: 29581 - name: flan_v2 num_bytes: 105654005.53780366 num_examples: 49108 download_size: 518036574 dataset_size: 1155954319.6550643 configs: - config_name: default data_files: - split: science.scierc_ner path: data/science.scierc_ner-* - split: sharegpt path: data/sharegpt-* - split: science.scifact_json path: data/science.scifact_json-* - split: lima path: data/lima-* - split: gpt4_alpaca path: data/gpt4_alpaca-* - split: science.evidence_inference path: data/science.evidence_inference-* - split: oasst1 path: data/oasst1-* - split: science.scitldr_aic path: data/science.scitldr_aic-* - split: science.scierc_relation path: data/science.scierc_relation-* - split: science.qasper_truncated_4000 path: data/science.qasper_truncated_4000-* - split: hard_coded path: data/hard_coded-* - split: code_alpaca path: data/code_alpaca-* - split: cot path: data/cot-* - split: wizardlm path: data/wizardlm-* - split: open_orca path: data/open_orca-* - split: flan_v2 path: data/flan_v2-* ---

数据集信息: 特征字段: - 字段名称: conversation 列表类型: - 子字段名称: content 数据类型: 字符串 - 子字段名称: role 数据类型: 字符串 数据集划分: - 划分名称: science.scierc_ner 占用字节数: 634623.0 样本数量: 349 - 划分名称: sharegpt 占用字节数: 776319873.4338813 样本数量: 72413 - 划分名称: science.scifact_json 占用字节数: 2350372.0 样本数量: 919 - 划分名称: lima 占用字节数: 2815967.0 样本数量: 1012 - 划分名称: gpt4_alpaca 占用字节数: 16091564.0 样本数量: 19834 - 划分名称: science.evidence_inference 占用字节数: 6620099.0 样本数量: 1673 - 划分名称: oasst1 占用字节数: 11027612.499452954 样本数量: 7046 - 划分名称: science.scitldr_aic 占用字节数: 13392412.0 样本数量: 1957 - 划分名称: science.scierc_relation 占用字节数: 735295.0 样本数量: 349 - 划分名称: science.qasper_truncated_4000 占用字节数: 34952831.0 样本数量: 2204 - 划分名称: hard_coded 占用字节数: 44940.0 样本数量: 90 - 划分名称: code_alpaca 占用字节数: 7102581.0 样本数量: 19992 - 划分名称: cot(思维链,Chain of Thought) 占用字节数: 56091350.817187 样本数量: 49709 - 划分名称: wizardlm 占用字节数: 69442958.16317087 样本数量: 29597 - 划分名称: open_orca 占用字节数: 52677835.20356853 样本数量: 29581 - 划分名称: flan_v2 占用字节数: 105654005.53780366 样本数量: 49108 下载总大小: 518036574 数据集总存储大小: 1155954319.6550643 配置项: - 配置名称: default 数据文件: - 对应划分: science.scierc_ner 文件路径: data/science.scierc_ner-* - 对应划分: sharegpt 文件路径: data/sharegpt-* - 对应划分: science.scifact_json 文件路径: data/science.scifact_json-* - 对应划分: lima 文件路径: data/lima-* - 对应划分: gpt4_alpaca 文件路径: data/gpt4_alpaca-* - 对应划分: science.evidence_inference 文件路径: data/science.evidence_inference-* - 对应划分: oasst1 文件路径: data/oasst1-* - 对应划分: science.scitldr_aic 文件路径: data/science.scitldr_aic-* - 对应划分: science.scierc_relation 文件路径: data/science.scierc_relation-* - 对应划分: science.qasper_truncated_4000 文件路径: data/science.qasper_truncated_4000-* - 对应划分: hard_coded 文件路径: data/hard_coded-* - 对应划分: code_alpaca 文件路径: data/code_alpaca-* - 对应划分: cot(思维链,Chain of Thought) 文件路径: data/cot-* - 对应划分: wizardlm 文件路径: data/wizardlm-* - 对应划分: open_orca 文件路径: data/open_orca-* - 对应划分: flan_v2 文件路径: data/flan_v2-*
提供机构:
LNTANOooo
原始信息汇总

数据集概述

数据集特征

  • conversation
    • content: 数据类型为字符串
    • role: 数据类型为字符串

数据集分割

  • science.scierc_ner
    • 字节数: 634623.0
    • 样本数: 349
  • sharegpt
    • 字节数: 776319873.4338813
    • 样本数: 72413
  • science.scifact_json
    • 字节数: 2350372.0
    • 样本数: 919
  • lima
    • 字节数: 2815967.0
    • 样本数: 1012
  • gpt4_alpaca
    • 字节数: 16091564.0
    • 样本数: 19834
  • science.evidence_inference
    • 字节数: 6620099.0
    • 样本数: 1673
  • oasst1
    • 字节数: 11027612.499452954
    • 样本数: 7046
  • science.scitldr_aic
    • 字节数: 13392412.0
    • 样本数: 1957
  • science.scierc_relation
    • 字节数: 735295.0
    • 样本数: 349
  • science.qasper_truncated_4000
    • 字节数: 34952831.0
    • 样本数: 2204
  • hard_coded
    • 字节数: 44940.0
    • 样本数: 90
  • code_alpaca
    • 字节数: 7102581.0
    • 样本数: 19992
  • cot
    • 字节数: 56091350.817187
    • 样本数: 49709
  • wizardlm
    • 字节数: 69442958.16317087
    • 样本数: 29597
  • open_orca
    • 字节数: 52677835.20356853
    • 样本数: 29581
  • flan_v2
    • 字节数: 105654005.53780366
    • 样本数: 49108

数据集大小

  • 下载大小: 518036574 字节
  • 数据集大小: 1155954319.6550643 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作