hqfx/tulu_v2
收藏Hugging Face2024-01-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hqfx/tulu_v2
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: conversation
list:
- name: content
dtype: string
- name: role
dtype: string
splits:
- name: science.scierc_ner
num_bytes: 634623
num_examples: 349
- name: sharegpt
num_bytes: 826685526
num_examples: 74312
- name: science.scifact_json
num_bytes: 2350372
num_examples: 919
- name: lima
num_bytes: 2847761
num_examples: 1018
- name: gpt4_alpaca
num_bytes: 16166613
num_examples: 19906
- name: science.evidence_inference
num_bytes: 6623765
num_examples: 1674
- name: oasst1
num_bytes: 11497333
num_examples: 7331
- name: science.scitldr_aic
num_bytes: 13404075
num_examples: 1959
- name: science.scierc_relation
num_bytes: 735295
num_examples: 349
- name: science.qasper_truncated_4000
num_bytes: 35171822
num_examples: 2218
- name: hard_coded
num_bytes: 71030
num_examples: 140
- name: code_alpaca
num_bytes: 7112342
num_examples: 20016
- name: cot
num_bytes: 56130437
num_examples: 49747
- name: wizardlm
num_bytes: 69904382
num_examples: 29810
- name: open_orca
num_bytes: 53121184
num_examples: 29683
- name: flan_v2
num_bytes: 105696294
num_examples: 49123
download_size: 541137401
dataset_size: 1208152854
configs:
- config_name: default
data_files:
- split: science.scierc_ner
path: data/science.scierc_ner-*
- split: sharegpt
path: data/sharegpt-*
- split: science.scifact_json
path: data/science.scifact_json-*
- split: lima
path: data/lima-*
- split: gpt4_alpaca
path: data/gpt4_alpaca-*
- split: science.evidence_inference
path: data/science.evidence_inference-*
- split: oasst1
path: data/oasst1-*
- split: science.scitldr_aic
path: data/science.scitldr_aic-*
- split: science.scierc_relation
path: data/science.scierc_relation-*
- split: science.qasper_truncated_4000
path: data/science.qasper_truncated_4000-*
- split: hard_coded
path: data/hard_coded-*
- split: code_alpaca
path: data/code_alpaca-*
- split: cot
path: data/cot-*
- split: wizardlm
path: data/wizardlm-*
- split: open_orca
path: data/open_orca-*
- split: flan_v2
path: data/flan_v2-*
---
提供机构:
hqfx
原始信息汇总
数据集概述
数据集特征
- 名称: conversation
- 内容:
- 名称: content
- 数据类型: string
- 名称: role
- 数据类型: string
- 名称: content
- 内容:
数据集分割
- 名称: science.scierc_ner
- 字节数: 634623
- 样本数: 349
- 名称: sharegpt
- 字节数: 826685526
- 样本数: 74312
- 名称: science.scifact_json
- 字节数: 2350372
- 样本数: 919
- 名称: lima
- 字节数: 2847761
- 样本数: 1018
- 名称: gpt4_alpaca
- 字节数: 16166613
- 样本数: 19906
- 名称: science.evidence_inference
- 字节数: 6623765
- 样本数: 1674
- 名称: oasst1
- 字节数: 11497333
- 样本数: 7331
- 名称: science.scitldr_aic
- 字节数: 13404075
- 样本数: 1959
- 名称: science.scierc_relation
- 字节数: 735295
- 样本数: 349
- 名称: science.qasper_truncated_4000
- 字节数: 35171822
- 样本数: 2218
- 名称: hard_coded
- 字节数: 71030
- 样本数: 140
- 名称: code_alpaca
- 字节数: 7112342
- 样本数: 20016
- 名称: cot
- 字节数: 56130437
- 样本数: 49747
- 名称: wizardlm
- 字节数: 69904382
- 样本数: 29810
- 名称: open_orca
- 字节数: 53121184
- 样本数: 29683
- 名称: flan_v2
- 字节数: 105696294
- 样本数: 49123
数据集大小
- 下载大小: 541137401 字节
- 数据集大小: 1208152854 字节
配置信息
- 配置名称: default
- 数据文件:
- 分割: science.scierc_ner
- 路径: data/science.scierc_ner-*
- 分割: sharegpt
- 路径: data/sharegpt-*
- 分割: science.scifact_json
- 路径: data/science.scifact_json-*
- 分割: lima
- 路径: data/lima-*
- 分割: gpt4_alpaca
- 路径: data/gpt4_alpaca-*
- 分割: science.evidence_inference
- 路径: data/science.evidence_inference-*
- 分割: oasst1
- 路径: data/oasst1-*
- 分割: science.scitldr_aic
- 路径: data/science.scitldr_aic-*
- 分割: science.scierc_relation
- 路径: data/science.scierc_relation-*
- 分割: science.qasper_truncated_4000
- 路径: data/science.qasper_truncated_4000-*
- 分割: hard_coded
- 路径: data/hard_coded-*
- 分割: code_alpaca
- 路径: data/code_alpaca-*
- 分割: cot
- 路径: data/cot-*
- 分割: wizardlm
- 路径: data/wizardlm-*
- 分割: open_orca
- 路径: data/open_orca-*
- 分割: flan_v2
- 路径: data/flan_v2-*
- 分割: science.scierc_ner
- 数据文件:



