LNTANOooo/tulu_v3

Name: LNTANOooo/tulu_v3
Creator: LNTANOooo
Published: 2024-03-18 02:14:09
License: 暂无描述

Hugging Face2024-03-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/LNTANOooo/tulu_v3

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversation list: - name: content dtype: string - name: role dtype: string splits: - name: science.scierc_ner num_bytes: 634623.0 num_examples: 349 - name: sharegpt num_bytes: 776319873.4338813 num_examples: 72413 - name: science.scifact_json num_bytes: 2350372.0 num_examples: 919 - name: lima num_bytes: 2815967.0 num_examples: 1012 - name: gpt4_alpaca num_bytes: 16091564.0 num_examples: 19834 - name: science.evidence_inference num_bytes: 6620099.0 num_examples: 1673 - name: oasst1 num_bytes: 11027612.499452954 num_examples: 7046 - name: science.scitldr_aic num_bytes: 13392412.0 num_examples: 1957 - name: science.scierc_relation num_bytes: 735295.0 num_examples: 349 - name: science.qasper_truncated_4000 num_bytes: 34952831.0 num_examples: 2204 - name: hard_coded num_bytes: 44940.0 num_examples: 90 - name: code_alpaca num_bytes: 7102581.0 num_examples: 19992 - name: cot num_bytes: 56091350.817187 num_examples: 49709 - name: wizardlm num_bytes: 69442958.16317087 num_examples: 29597 - name: open_orca num_bytes: 52677835.20356853 num_examples: 29581 - name: flan_v2 num_bytes: 105654005.53780366 num_examples: 49108 download_size: 518036574 dataset_size: 1155954319.6550643 configs: - config_name: default data_files: - split: science.scierc_ner path: data/science.scierc_ner-* - split: sharegpt path: data/sharegpt-* - split: science.scifact_json path: data/science.scifact_json-* - split: lima path: data/lima-* - split: gpt4_alpaca path: data/gpt4_alpaca-* - split: science.evidence_inference path: data/science.evidence_inference-* - split: oasst1 path: data/oasst1-* - split: science.scitldr_aic path: data/science.scitldr_aic-* - split: science.scierc_relation path: data/science.scierc_relation-* - split: science.qasper_truncated_4000 path: data/science.qasper_truncated_4000-* - split: hard_coded path: data/hard_coded-* - split: code_alpaca path: data/code_alpaca-* - split: cot path: data/cot-* - split: wizardlm path: data/wizardlm-* - split: open_orca path: data/open_orca-* - split: flan_v2 path: data/flan_v2-* ---

数据集信息: 特征字段: - 字段名称: conversation 列表类型: - 子字段名称: content 数据类型: 字符串 - 子字段名称: role 数据类型: 字符串数据集划分: - 划分名称: science.scierc_ner 占用字节数: 634623.0 样本数量: 349 - 划分名称: sharegpt 占用字节数: 776319873.4338813 样本数量: 72413 - 划分名称: science.scifact_json 占用字节数: 2350372.0 样本数量: 919 - 划分名称: lima 占用字节数: 2815967.0 样本数量: 1012 - 划分名称: gpt4_alpaca 占用字节数: 16091564.0 样本数量: 19834 - 划分名称: science.evidence_inference 占用字节数: 6620099.0 样本数量: 1673 - 划分名称: oasst1 占用字节数: 11027612.499452954 样本数量: 7046 - 划分名称: science.scitldr_aic 占用字节数: 13392412.0 样本数量: 1957 - 划分名称: science.scierc_relation 占用字节数: 735295.0 样本数量: 349 - 划分名称: science.qasper_truncated_4000 占用字节数: 34952831.0 样本数量: 2204 - 划分名称: hard_coded 占用字节数: 44940.0 样本数量: 90 - 划分名称: code_alpaca 占用字节数: 7102581.0 样本数量: 19992 - 划分名称: cot（思维链，Chain of Thought）占用字节数: 56091350.817187 样本数量: 49709 - 划分名称: wizardlm 占用字节数: 69442958.16317087 样本数量: 29597 - 划分名称: open_orca 占用字节数: 52677835.20356853 样本数量: 29581 - 划分名称: flan_v2 占用字节数: 105654005.53780366 样本数量: 49108 下载总大小: 518036574 数据集总存储大小: 1155954319.6550643 配置项: - 配置名称: default 数据文件: - 对应划分: science.scierc_ner 文件路径: data/science.scierc_ner-* - 对应划分: sharegpt 文件路径: data/sharegpt-* - 对应划分: science.scifact_json 文件路径: data/science.scifact_json-* - 对应划分: lima 文件路径: data/lima-* - 对应划分: gpt4_alpaca 文件路径: data/gpt4_alpaca-* - 对应划分: science.evidence_inference 文件路径: data/science.evidence_inference-* - 对应划分: oasst1 文件路径: data/oasst1-* - 对应划分: science.scitldr_aic 文件路径: data/science.scitldr_aic-* - 对应划分: science.scierc_relation 文件路径: data/science.scierc_relation-* - 对应划分: science.qasper_truncated_4000 文件路径: data/science.qasper_truncated_4000-* - 对应划分: hard_coded 文件路径: data/hard_coded-* - 对应划分: code_alpaca 文件路径: data/code_alpaca-* - 对应划分: cot（思维链，Chain of Thought）文件路径: data/cot-* - 对应划分: wizardlm 文件路径: data/wizardlm-* - 对应划分: open_orca 文件路径: data/open_orca-* - 对应划分: flan_v2 文件路径: data/flan_v2-*

提供机构：

LNTANOooo

原始信息汇总

数据集概述

数据集特征

conversation
- content: 数据类型为字符串
- role: 数据类型为字符串

数据集分割

science.scierc_ner
- 字节数: 634623.0
- 样本数: 349
sharegpt
- 字节数: 776319873.4338813
- 样本数: 72413
science.scifact_json
- 字节数: 2350372.0
- 样本数: 919
lima
- 字节数: 2815967.0
- 样本数: 1012
gpt4_alpaca
- 字节数: 16091564.0
- 样本数: 19834
science.evidence_inference
- 字节数: 6620099.0
- 样本数: 1673
oasst1
- 字节数: 11027612.499452954
- 样本数: 7046
science.scitldr_aic
- 字节数: 13392412.0
- 样本数: 1957
science.scierc_relation
- 字节数: 735295.0
- 样本数: 349
science.qasper_truncated_4000
- 字节数: 34952831.0
- 样本数: 2204
hard_coded
- 字节数: 44940.0
- 样本数: 90
code_alpaca
- 字节数: 7102581.0
- 样本数: 19992
cot
- 字节数: 56091350.817187
- 样本数: 49709
wizardlm
- 字节数: 69442958.16317087
- 样本数: 29597
open_orca
- 字节数: 52677835.20356853
- 样本数: 29581
flan_v2
- 字节数: 105654005.53780366
- 样本数: 49108

数据集大小

下载大小: 518036574 字节
数据集大小: 1155954319.6550643 字节

5,000+

优质数据集

54 个

任务类型

进入经典数据集