llama-duo/coverage_dataset
收藏Hugging Face2024-05-11 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/llama-duo/coverage_dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-nc-4.0
dataset_info:
features:
- name: prompt
dtype: string
- name: prompt_id
dtype: string
- name: messages
list:
- name: content
dtype: string
- name: role
dtype: string
- name: category
dtype: string
splits:
- name: train_summarize
num_bytes: 1325395
num_examples: 395
- name: train_generation
num_bytes: 6498866
num_examples: 4346
- name: train_rewrite
num_bytes: 2726532
num_examples: 625
- name: train_open_qa
num_bytes: 811840
num_examples: 1182
- name: train_closed_qa
num_bytes: 695702
num_examples: 245
- name: train_chat
num_bytes: 761363
num_examples: 796
- name: train_brainstorm
num_bytes: 1839763
num_examples: 1060
- name: train_coding
num_bytes: 569720
num_examples: 334
- name: train_classify
num_bytes: 588666
num_examples: 334
- name: train_extract
num_bytes: 679020
num_examples: 183
- name: test_chat
num_bytes: 51809
num_examples: 54
- name: test_brainstorm
num_bytes: 106990
num_examples: 60
- name: test_generation
num_bytes: 320482
num_examples: 214
- name: test_rewrite
num_bytes: 162874
num_examples: 35
- name: test_open_qa
num_bytes: 41544
num_examples: 58
- name: test_classify
num_bytes: 13877
num_examples: 16
- name: test_summarize
num_bytes: 88579
num_examples: 25
- name: test_coding
num_bytes: 24999
num_examples: 16
- name: test_extract
num_bytes: 22578
num_examples: 7
- name: test_closed_qa
num_bytes: 53728
num_examples: 15
download_size: 11025394
dataset_size: 17384327
configs:
- config_name: default
data_files:
- split: train_summarize
path: data/train_summarize-*
- split: train_generation
path: data/train_generation-*
- split: train_rewrite
path: data/train_rewrite-*
- split: train_open_qa
path: data/train_open_qa-*
- split: train_closed_qa
path: data/train_closed_qa-*
- split: train_chat
path: data/train_chat-*
- split: train_brainstorm
path: data/train_brainstorm-*
- split: train_coding
path: data/train_coding-*
- split: train_classify
path: data/train_classify-*
- split: train_extract
path: data/train_extract-*
- split: test_chat
path: data/test_chat-*
- split: test_brainstorm
path: data/test_brainstorm-*
- split: test_generation
path: data/test_generation-*
- split: test_rewrite
path: data/test_rewrite-*
- split: test_open_qa
path: data/test_open_qa-*
- split: test_classify
path: data/test_classify-*
- split: test_summarize
path: data/test_summarize-*
- split: test_coding
path: data/test_coding-*
- split: test_extract
path: data/test_extract-*
- split: test_closed_qa
path: data/test_closed_qa-*
---
提供机构:
llama-duo
原始信息汇总
数据集概述
数据集特征
- prompt: 数据类型为字符串。
- prompt_id: 数据类型为字符串。
- messages: 列表类型,包含以下子特征:
- content: 数据类型为字符串。
- role: 数据类型为字符串。
- category: 数据类型为字符串。
数据集分割
- 训练集:
- train_summarize: 395个样本,占用1325395字节。
- train_generation: 4346个样本,占用6498866字节。
- train_rewrite: 625个样本,占用2726532字节。
- train_open_qa: 1182个样本,占用811840字节。
- train_closed_qa: 245个样本,占用695702字节。
- train_chat: 796个样本,占用761363字节。
- train_brainstorm: 1060个样本,占用1839763字节。
- train_coding: 334个样本,占用569720字节。
- train_classify: 334个样本,占用588666字节。
- train_extract: 183个样本,占用679020字节。
- 测试集:
- test_chat: 54个样本,占用51809字节。
- test_brainstorm: 60个样本,占用106990字节。
- test_generation: 214个样本,占用320482字节。
- test_rewrite: 35个样本,占用162874字节。
- test_open_qa: 58个样本,占用41544字节。
- test_classify: 16个样本,占用13877字节。
- test_summarize: 25个样本,占用88579字节。
- test_coding: 16个样本,占用24999字节。
- test_extract: 7个样本,占用22578字节。
- test_closed_qa: 15个样本,占用53728字节。
数据集大小
- 下载大小: 11025394字节。
- 数据集总大小: 17384327字节。
配置文件
- 默认配置:包含所有分割的数据文件路径。



