five

llama-duo/coverage_dataset

收藏
Hugging Face2024-05-11 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/llama-duo/coverage_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-nc-4.0 dataset_info: features: - name: prompt dtype: string - name: prompt_id dtype: string - name: messages list: - name: content dtype: string - name: role dtype: string - name: category dtype: string splits: - name: train_summarize num_bytes: 1325395 num_examples: 395 - name: train_generation num_bytes: 6498866 num_examples: 4346 - name: train_rewrite num_bytes: 2726532 num_examples: 625 - name: train_open_qa num_bytes: 811840 num_examples: 1182 - name: train_closed_qa num_bytes: 695702 num_examples: 245 - name: train_chat num_bytes: 761363 num_examples: 796 - name: train_brainstorm num_bytes: 1839763 num_examples: 1060 - name: train_coding num_bytes: 569720 num_examples: 334 - name: train_classify num_bytes: 588666 num_examples: 334 - name: train_extract num_bytes: 679020 num_examples: 183 - name: test_chat num_bytes: 51809 num_examples: 54 - name: test_brainstorm num_bytes: 106990 num_examples: 60 - name: test_generation num_bytes: 320482 num_examples: 214 - name: test_rewrite num_bytes: 162874 num_examples: 35 - name: test_open_qa num_bytes: 41544 num_examples: 58 - name: test_classify num_bytes: 13877 num_examples: 16 - name: test_summarize num_bytes: 88579 num_examples: 25 - name: test_coding num_bytes: 24999 num_examples: 16 - name: test_extract num_bytes: 22578 num_examples: 7 - name: test_closed_qa num_bytes: 53728 num_examples: 15 download_size: 11025394 dataset_size: 17384327 configs: - config_name: default data_files: - split: train_summarize path: data/train_summarize-* - split: train_generation path: data/train_generation-* - split: train_rewrite path: data/train_rewrite-* - split: train_open_qa path: data/train_open_qa-* - split: train_closed_qa path: data/train_closed_qa-* - split: train_chat path: data/train_chat-* - split: train_brainstorm path: data/train_brainstorm-* - split: train_coding path: data/train_coding-* - split: train_classify path: data/train_classify-* - split: train_extract path: data/train_extract-* - split: test_chat path: data/test_chat-* - split: test_brainstorm path: data/test_brainstorm-* - split: test_generation path: data/test_generation-* - split: test_rewrite path: data/test_rewrite-* - split: test_open_qa path: data/test_open_qa-* - split: test_classify path: data/test_classify-* - split: test_summarize path: data/test_summarize-* - split: test_coding path: data/test_coding-* - split: test_extract path: data/test_extract-* - split: test_closed_qa path: data/test_closed_qa-* ---
提供机构:
llama-duo
原始信息汇总

数据集概述

数据集特征

  • prompt: 数据类型为字符串。
  • prompt_id: 数据类型为字符串。
  • messages: 列表类型,包含以下子特征:
    • content: 数据类型为字符串。
    • role: 数据类型为字符串。
  • category: 数据类型为字符串。

数据集分割

  • 训练集
    • train_summarize: 395个样本,占用1325395字节。
    • train_generation: 4346个样本,占用6498866字节。
    • train_rewrite: 625个样本,占用2726532字节。
    • train_open_qa: 1182个样本,占用811840字节。
    • train_closed_qa: 245个样本,占用695702字节。
    • train_chat: 796个样本,占用761363字节。
    • train_brainstorm: 1060个样本,占用1839763字节。
    • train_coding: 334个样本,占用569720字节。
    • train_classify: 334个样本,占用588666字节。
    • train_extract: 183个样本,占用679020字节。
  • 测试集
    • test_chat: 54个样本,占用51809字节。
    • test_brainstorm: 60个样本,占用106990字节。
    • test_generation: 214个样本,占用320482字节。
    • test_rewrite: 35个样本,占用162874字节。
    • test_open_qa: 58个样本,占用41544字节。
    • test_classify: 16个样本,占用13877字节。
    • test_summarize: 25个样本,占用88579字节。
    • test_coding: 16个样本,占用24999字节。
    • test_extract: 7个样本,占用22578字节。
    • test_closed_qa: 15个样本,占用53728字节。

数据集大小

  • 下载大小: 11025394字节。
  • 数据集总大小: 17384327字节。

配置文件

  • 默认配置:包含所有分割的数据文件路径。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作