five

wisenut-nlp-team/llama_en_smr

收藏
Hugging Face2024-05-14 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/wisenut-nlp-team/llama_en_smr
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: - config_name: xlsum features: - name: instruction dtype: string - name: input dtype: string - name: output dtype: string splits: - name: train num_bytes: 955724969 num_examples: 329591 download_size: 628277760 dataset_size: 955724969 - config_name: wikilingua features: - name: instruction dtype: string - name: input dtype: string - name: output dtype: string splits: - name: train num_bytes: 319808186 num_examples: 136346 download_size: 196608000 dataset_size: 319808186 - config_name: pubmed_summarization features: - name: instruction dtype: string - name: input dtype: string - name: output dtype: string splits: - name: train num_bytes: 2489671484 num_examples: 133215 download_size: 1234132480 dataset_size: 2489671484 - config_name: arxiv_summarization features: - name: instruction dtype: string - name: input dtype: string - name: output dtype: string splits: - name: train num_bytes: 7640184713 num_examples: 215913 download_size: 3918000000 dataset_size: 7640184713 - config_name: legal_summarization features: - name: instruction dtype: string - name: input dtype: string - name: output dtype: string splits: - name: train num_bytes: 369966238 num_examples: 26860 download_size: 166871040 dataset_size: 369966238 - config_name: legal_case_document_summarization features: - name: instruction dtype: string - name: input dtype: string - name: output dtype: string splits: - name: train num_bytes: 9917359125 num_examples: 342470 download_size: 5087234048 dataset_size: 9917359125 - config_name: scientific_papers features: - name: instruction dtype: string - name: input dtype: string - name: output dtype: string splits: - name: train num_bytes: 9917359125 num_examples: 342470 download_size: 4740000000 dataset_size: 9917359125 configs: - config_name: xlsum data_files: - split: train path: xlsum/train.parquet - config_name: wikilingua data_files: - split: train path: wikilingua/train.parquet - config_name: pubmed_summarization data_files: - split: train path: pubmed_summarization/train.parquet - config_name: arxiv_summarization data_files: - split: train path: arxiv_summarization/train.parquet - config_name: legal_summarization data_files: - split: train path: legal_summarization/train.parquet - config_name: legal_case_document_summarization data_files: - split: train path: legal_case_document_summarization/train.parquet - config_name: scientific_papers data_files: - split: train path: scientific_papers/train.parquet task_categories: - summarization language: - en tags: - croissant --- ## [wikilingua](https://huggingface.co/datasets/GEM/wiki_lingua) - subset: wikilingua - length: 136k ## [xlsum](https://huggingface.co/datasets/csebuetnlp/xlsum) - subset: xlsum - length: 330k ## [pubmed summarization](https://huggingface.co/datasets/ccdv/pubmed-summarization) - subset: pubmed_summarization - length: 133k ## [arxiv_summarization](https://huggingface.co/datasets/ccdv/arxiv-summarization) - subset: ccdv/arxiv_summarization - length: 216k ## [legal_summarization](https://huggingface.co/datasets/lighteval/legal_summarization) - subset: lighteval/legal_summarization - length: 26.9k ## [legal_case_document_summarization](https://huggingface.co/datasets/joelniklaus/legal_case_document_summarization) - subset: joelniklaus/legal_case_document_summarization - length: 8k ## [scientific_papers](https://huggingface.co/datasets/scientific_papers) - subset: scientific_papers - length: 191k

数据集信息: - 配置名称:xlsum 特征字段: - 字段名:instruction,数据类型:字符串类型 - 字段名:input,数据类型:字符串类型 - 字段名:output,数据类型:字符串类型 数据划分: - 划分名称:train(训练集),字节数:955724969,样本数:329591 下载大小:628277760 数据集总大小:955724969 - 配置名称:wikilingua 特征字段: - 字段名:instruction,数据类型:字符串类型 - 字段名:input,数据类型:字符串类型 - 字段名:output,数据类型:字符串类型 数据划分: - 划分名称:train(训练集),字节数:319808186,样本数:136346 下载大小:196608000 数据集总大小:319808186 - 配置名称:pubmed_summarization 特征字段: - 字段名:instruction,数据类型:字符串类型 - 字段名:input,数据类型:字符串类型 - 字段名:output,数据类型:字符串类型 数据划分: - 划分名称:train(训练集),字节数:2489671484,样本数:133215 下载大小:1234132480 数据集总大小:2489671484 - 配置名称:arxiv_summarization 特征字段: - 字段名:instruction,数据类型:字符串类型 - 字段名:input,数据类型:字符串类型 - 字段名:output,数据类型:字符串类型 数据划分: - 划分名称:train(训练集),字节数:7640184713,样本数:215913 下载大小:3918000000 数据集总大小:7640184713 - 配置名称:legal_summarization 特征字段: - 字段名:instruction,数据类型:字符串类型 - 字段名:input,数据类型:字符串类型 - 字段名:output,数据类型:字符串类型 数据划分: - 划分名称:train(训练集),字节数:369966238,样本数:26860 下载大小:166871040 数据集总大小:369966238 - 配置名称:legal_case_document_summarization 特征字段: - 字段名:instruction,数据类型:字符串类型 - 字段名:input,数据类型:字符串类型 - 字段名:output,数据类型:字符串类型 数据划分: - 划分名称:train(训练集),字节数:9917359125,样本数:342470 下载大小:5087234048 数据集总大小:9917359125 - 配置名称:scientific_papers 特征字段: - 字段名:instruction,数据类型:字符串类型 - 字段名:input,数据类型:字符串类型 - 字段名:output,数据类型:字符串类型 数据划分: - 划分名称:train(训练集),字节数:9917359125,样本数:342470 下载大小:4740000000 数据集总大小:9917359125 数据集配置: - 配置名称:xlsum 数据文件: - 划分:train(训练集),路径:xlsum/train.parquet - 配置名称:wikilingua 数据文件: - 划分:train(训练集),路径:wikilingua/train.parquet - 配置名称:pubmed_summarization 数据文件: - 划分:train(训练集),路径:pubmed_summarization/train.parquet - 配置名称:arxiv_summarization 数据文件: - 划分:train(训练集),路径:arxiv_summarization/train.parquet - 配置名称:legal_summarization 数据文件: - 划分:train(训练集),路径:legal_summarization/train.parquet - 配置名称:legal_case_document_summarization 数据文件: - 划分:train(训练集),路径:legal_case_document_summarization/train.parquet - 配置名称:scientific_papers 数据文件: - 划分:train(训练集),路径:scientific_papers/train.parquet 任务类别: - 摘要任务(summarization) 语言: - 英语(en) 标签: - 克罗桑(Croissant) ## [维基灵瓜(wikilingua)数据集](https://huggingface.co/datasets/GEM/wiki_lingua) - 子数据集:wikilingua - 样本量:13.6万(136346) ## [XLSUM数据集](https://huggingface.co/datasets/csebuetnlp/xlsum) - 子数据集:xlsum - 样本量:33.0万(329591) ## [PubMed摘要数据集](https://huggingface.co/datasets/ccdv/pubmed-summarization) - 子数据集:pubmed_summarization - 样本量:13.3万(133215) ## [arXiv摘要数据集](https://huggingface.co/datasets/ccdv/arxiv-summarization) - 子数据集:ccdv/arxiv_summarization - 样本量:21.6万(215913) ## [法律摘要数据集](https://huggingface.co/datasets/lighteval/legal_summarization) - 子数据集:lighteval/legal_summarization - 样本量:2.69万(26860) ## [法律案件文档摘要数据集](https://huggingface.co/datasets/joelniklaus/legal_case_document_summarization) - 子数据集:joelniklaus/legal_case_document_summarization - 样本量:8000(8k) ## [学术论文数据集](https://huggingface.co/datasets/scientific_papers) - 子数据集:scientific_papers - 样本量:19.1万(191k)
提供机构:
wisenut-nlp-team
原始信息汇总

数据集概述

1. xlsum

  • 特征:
    • instruction: 字符串
    • input: 字符串
    • output: 字符串
  • 训练集:
    • 字节数: 955724969
    • 示例数: 329591
  • 下载大小: 628277760
  • 数据集大小: 955724969

2. wikilingua

  • 特征:
    • instruction: 字符串
    • input: 字符串
    • output: 字符串
  • 训练集:
    • 字节数: 319808186
    • 示例数: 136346
  • 下载大小: 196608000
  • 数据集大小: 319808186

3. pubmed_summarization

  • 特征:
    • instruction: 字符串
    • input: 字符串
    • output: 字符串
  • 训练集:
    • 字节数: 2489671484
    • 示例数: 133215
  • 下载大小: 1234132480
  • 数据集大小: 2489671484

4. arxiv_summarization

  • 特征:
    • instruction: 字符串
    • input: 字符串
    • output: 字符串
  • 训练集:
    • 字节数: 7640184713
    • 示例数: 215913
  • 下载大小: 3918000000
  • 数据集大小: 7640184713

5. legal_summarization

  • 特征:
    • instruction: 字符串
    • input: 字符串
    • output: 字符串
  • 训练集:
    • 字节数: 369966238
    • 示例数: 26860
  • 下载大小: 166871040
  • 数据集大小: 369966238

6. legal_case_document_summarization

  • 特征:
    • instruction: 字符串
    • input: 字符串
    • output: 字符串
  • 训练集:
    • 字节数: 9917359125
    • 示例数: 342470
  • 下载大小: 5087234048
  • 数据集大小: 9917359125

7. scientific_papers

  • 特征:
    • instruction: 字符串
    • input: 字符串
    • output: 字符串
  • 训练集:
    • 字节数: 9917359125
    • 示例数: 342470
  • 下载大小: 4740000000
  • 数据集大小: 9917359125

数据集文件路径

  • xlsum: xlsum/train.parquet
  • wikilingua: wikilingua/train.parquet
  • pubmed_summarization: pubmed_summarization/train.parquet
  • arxiv_summarization: arxiv_summarization/train.parquet
  • legal_summarization: legal_summarization/train.parquet
  • legal_case_document_summarization: legal_case_document_summarization/train.parquet
  • scientific_papers: scientific_papers/train.parquet
二维码
社区交流群
二维码
科研交流群
商业服务