LNTANOooo/tulu_v3
收藏Hugging Face2024-03-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/LNTANOooo/tulu_v3
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: conversation
list:
- name: content
dtype: string
- name: role
dtype: string
splits:
- name: science.scierc_ner
num_bytes: 634623.0
num_examples: 349
- name: sharegpt
num_bytes: 776319873.4338813
num_examples: 72413
- name: science.scifact_json
num_bytes: 2350372.0
num_examples: 919
- name: lima
num_bytes: 2815967.0
num_examples: 1012
- name: gpt4_alpaca
num_bytes: 16091564.0
num_examples: 19834
- name: science.evidence_inference
num_bytes: 6620099.0
num_examples: 1673
- name: oasst1
num_bytes: 11027612.499452954
num_examples: 7046
- name: science.scitldr_aic
num_bytes: 13392412.0
num_examples: 1957
- name: science.scierc_relation
num_bytes: 735295.0
num_examples: 349
- name: science.qasper_truncated_4000
num_bytes: 34952831.0
num_examples: 2204
- name: hard_coded
num_bytes: 44940.0
num_examples: 90
- name: code_alpaca
num_bytes: 7102581.0
num_examples: 19992
- name: cot
num_bytes: 56091350.817187
num_examples: 49709
- name: wizardlm
num_bytes: 69442958.16317087
num_examples: 29597
- name: open_orca
num_bytes: 52677835.20356853
num_examples: 29581
- name: flan_v2
num_bytes: 105654005.53780366
num_examples: 49108
download_size: 518036574
dataset_size: 1155954319.6550643
configs:
- config_name: default
data_files:
- split: science.scierc_ner
path: data/science.scierc_ner-*
- split: sharegpt
path: data/sharegpt-*
- split: science.scifact_json
path: data/science.scifact_json-*
- split: lima
path: data/lima-*
- split: gpt4_alpaca
path: data/gpt4_alpaca-*
- split: science.evidence_inference
path: data/science.evidence_inference-*
- split: oasst1
path: data/oasst1-*
- split: science.scitldr_aic
path: data/science.scitldr_aic-*
- split: science.scierc_relation
path: data/science.scierc_relation-*
- split: science.qasper_truncated_4000
path: data/science.qasper_truncated_4000-*
- split: hard_coded
path: data/hard_coded-*
- split: code_alpaca
path: data/code_alpaca-*
- split: cot
path: data/cot-*
- split: wizardlm
path: data/wizardlm-*
- split: open_orca
path: data/open_orca-*
- split: flan_v2
path: data/flan_v2-*
---
数据集信息:
特征字段:
- 字段名称: conversation
列表类型:
- 子字段名称: content
数据类型: 字符串
- 子字段名称: role
数据类型: 字符串
数据集划分:
- 划分名称: science.scierc_ner
占用字节数: 634623.0
样本数量: 349
- 划分名称: sharegpt
占用字节数: 776319873.4338813
样本数量: 72413
- 划分名称: science.scifact_json
占用字节数: 2350372.0
样本数量: 919
- 划分名称: lima
占用字节数: 2815967.0
样本数量: 1012
- 划分名称: gpt4_alpaca
占用字节数: 16091564.0
样本数量: 19834
- 划分名称: science.evidence_inference
占用字节数: 6620099.0
样本数量: 1673
- 划分名称: oasst1
占用字节数: 11027612.499452954
样本数量: 7046
- 划分名称: science.scitldr_aic
占用字节数: 13392412.0
样本数量: 1957
- 划分名称: science.scierc_relation
占用字节数: 735295.0
样本数量: 349
- 划分名称: science.qasper_truncated_4000
占用字节数: 34952831.0
样本数量: 2204
- 划分名称: hard_coded
占用字节数: 44940.0
样本数量: 90
- 划分名称: code_alpaca
占用字节数: 7102581.0
样本数量: 19992
- 划分名称: cot(思维链,Chain of Thought)
占用字节数: 56091350.817187
样本数量: 49709
- 划分名称: wizardlm
占用字节数: 69442958.16317087
样本数量: 29597
- 划分名称: open_orca
占用字节数: 52677835.20356853
样本数量: 29581
- 划分名称: flan_v2
占用字节数: 105654005.53780366
样本数量: 49108
下载总大小: 518036574
数据集总存储大小: 1155954319.6550643
配置项:
- 配置名称: default
数据文件:
- 对应划分: science.scierc_ner
文件路径: data/science.scierc_ner-*
- 对应划分: sharegpt
文件路径: data/sharegpt-*
- 对应划分: science.scifact_json
文件路径: data/science.scifact_json-*
- 对应划分: lima
文件路径: data/lima-*
- 对应划分: gpt4_alpaca
文件路径: data/gpt4_alpaca-*
- 对应划分: science.evidence_inference
文件路径: data/science.evidence_inference-*
- 对应划分: oasst1
文件路径: data/oasst1-*
- 对应划分: science.scitldr_aic
文件路径: data/science.scitldr_aic-*
- 对应划分: science.scierc_relation
文件路径: data/science.scierc_relation-*
- 对应划分: science.qasper_truncated_4000
文件路径: data/science.qasper_truncated_4000-*
- 对应划分: hard_coded
文件路径: data/hard_coded-*
- 对应划分: code_alpaca
文件路径: data/code_alpaca-*
- 对应划分: cot(思维链,Chain of Thought)
文件路径: data/cot-*
- 对应划分: wizardlm
文件路径: data/wizardlm-*
- 对应划分: open_orca
文件路径: data/open_orca-*
- 对应划分: flan_v2
文件路径: data/flan_v2-*
提供机构:
LNTANOooo
原始信息汇总
数据集概述
数据集特征
- conversation
- content: 数据类型为字符串
- role: 数据类型为字符串
数据集分割
- science.scierc_ner
- 字节数: 634623.0
- 样本数: 349
- sharegpt
- 字节数: 776319873.4338813
- 样本数: 72413
- science.scifact_json
- 字节数: 2350372.0
- 样本数: 919
- lima
- 字节数: 2815967.0
- 样本数: 1012
- gpt4_alpaca
- 字节数: 16091564.0
- 样本数: 19834
- science.evidence_inference
- 字节数: 6620099.0
- 样本数: 1673
- oasst1
- 字节数: 11027612.499452954
- 样本数: 7046
- science.scitldr_aic
- 字节数: 13392412.0
- 样本数: 1957
- science.scierc_relation
- 字节数: 735295.0
- 样本数: 349
- science.qasper_truncated_4000
- 字节数: 34952831.0
- 样本数: 2204
- hard_coded
- 字节数: 44940.0
- 样本数: 90
- code_alpaca
- 字节数: 7102581.0
- 样本数: 19992
- cot
- 字节数: 56091350.817187
- 样本数: 49709
- wizardlm
- 字节数: 69442958.16317087
- 样本数: 29597
- open_orca
- 字节数: 52677835.20356853
- 样本数: 29581
- flan_v2
- 字节数: 105654005.53780366
- 样本数: 49108
数据集大小
- 下载大小: 518036574 字节
- 数据集大小: 1155954319.6550643 字节



