wisenut-nlp-team/llama_en_smr

Name: wisenut-nlp-team/llama_en_smr
Creator: wisenut-nlp-team
Published: 2024-05-14 05:44:45
License: 暂无描述

Hugging Face2024-05-14 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/wisenut-nlp-team/llama_en_smr

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: - config_name: xlsum features: - name: instruction dtype: string - name: input dtype: string - name: output dtype: string splits: - name: train num_bytes: 955724969 num_examples: 329591 download_size: 628277760 dataset_size: 955724969 - config_name: wikilingua features: - name: instruction dtype: string - name: input dtype: string - name: output dtype: string splits: - name: train num_bytes: 319808186 num_examples: 136346 download_size: 196608000 dataset_size: 319808186 - config_name: pubmed_summarization features: - name: instruction dtype: string - name: input dtype: string - name: output dtype: string splits: - name: train num_bytes: 2489671484 num_examples: 133215 download_size: 1234132480 dataset_size: 2489671484 - config_name: arxiv_summarization features: - name: instruction dtype: string - name: input dtype: string - name: output dtype: string splits: - name: train num_bytes: 7640184713 num_examples: 215913 download_size: 3918000000 dataset_size: 7640184713 - config_name: legal_summarization features: - name: instruction dtype: string - name: input dtype: string - name: output dtype: string splits: - name: train num_bytes: 369966238 num_examples: 26860 download_size: 166871040 dataset_size: 369966238 - config_name: legal_case_document_summarization features: - name: instruction dtype: string - name: input dtype: string - name: output dtype: string splits: - name: train num_bytes: 9917359125 num_examples: 342470 download_size: 5087234048 dataset_size: 9917359125 - config_name: scientific_papers features: - name: instruction dtype: string - name: input dtype: string - name: output dtype: string splits: - name: train num_bytes: 9917359125 num_examples: 342470 download_size: 4740000000 dataset_size: 9917359125 configs: - config_name: xlsum data_files: - split: train path: xlsum/train.parquet - config_name: wikilingua data_files: - split: train path: wikilingua/train.parquet - config_name: pubmed_summarization data_files: - split: train path: pubmed_summarization/train.parquet - config_name: arxiv_summarization data_files: - split: train path: arxiv_summarization/train.parquet - config_name: legal_summarization data_files: - split: train path: legal_summarization/train.parquet - config_name: legal_case_document_summarization data_files: - split: train path: legal_case_document_summarization/train.parquet - config_name: scientific_papers data_files: - split: train path: scientific_papers/train.parquet task_categories: - summarization language: - en tags: - croissant --- ## [wikilingua](https://huggingface.co/datasets/GEM/wiki_lingua) - subset: wikilingua - length: 136k ## [xlsum](https://huggingface.co/datasets/csebuetnlp/xlsum) - subset: xlsum - length: 330k ## [pubmed summarization](https://huggingface.co/datasets/ccdv/pubmed-summarization) - subset: pubmed_summarization - length: 133k ## [arxiv_summarization](https://huggingface.co/datasets/ccdv/arxiv-summarization) - subset: ccdv/arxiv_summarization - length: 216k ## [legal_summarization](https://huggingface.co/datasets/lighteval/legal_summarization) - subset: lighteval/legal_summarization - length: 26.9k ## [legal_case_document_summarization](https://huggingface.co/datasets/joelniklaus/legal_case_document_summarization) - subset: joelniklaus/legal_case_document_summarization - length: 8k ## [scientific_papers](https://huggingface.co/datasets/scientific_papers) - subset: scientific_papers - length: 191k

数据集信息： - 配置名称：xlsum 特征字段： - 字段名：instruction，数据类型：字符串类型 - 字段名：input，数据类型：字符串类型 - 字段名：output，数据类型：字符串类型数据划分： - 划分名称：train（训练集），字节数：955724969，样本数：329591 下载大小：628277760 数据集总大小：955724969 - 配置名称：wikilingua 特征字段： - 字段名：instruction，数据类型：字符串类型 - 字段名：input，数据类型：字符串类型 - 字段名：output，数据类型：字符串类型数据划分： - 划分名称：train（训练集），字节数：319808186，样本数：136346 下载大小：196608000 数据集总大小：319808186 - 配置名称：pubmed_summarization 特征字段： - 字段名：instruction，数据类型：字符串类型 - 字段名：input，数据类型：字符串类型 - 字段名：output，数据类型：字符串类型数据划分： - 划分名称：train（训练集），字节数：2489671484，样本数：133215 下载大小：1234132480 数据集总大小：2489671484 - 配置名称：arxiv_summarization 特征字段： - 字段名：instruction，数据类型：字符串类型 - 字段名：input，数据类型：字符串类型 - 字段名：output，数据类型：字符串类型数据划分： - 划分名称：train（训练集），字节数：7640184713，样本数：215913 下载大小：3918000000 数据集总大小：7640184713 - 配置名称：legal_summarization 特征字段： - 字段名：instruction，数据类型：字符串类型 - 字段名：input，数据类型：字符串类型 - 字段名：output，数据类型：字符串类型数据划分： - 划分名称：train（训练集），字节数：369966238，样本数：26860 下载大小：166871040 数据集总大小：369966238 - 配置名称：legal_case_document_summarization 特征字段： - 字段名：instruction，数据类型：字符串类型 - 字段名：input，数据类型：字符串类型 - 字段名：output，数据类型：字符串类型数据划分： - 划分名称：train（训练集），字节数：9917359125，样本数：342470 下载大小：5087234048 数据集总大小：9917359125 - 配置名称：scientific_papers 特征字段： - 字段名：instruction，数据类型：字符串类型 - 字段名：input，数据类型：字符串类型 - 字段名：output，数据类型：字符串类型数据划分： - 划分名称：train（训练集），字节数：9917359125，样本数：342470 下载大小：4740000000 数据集总大小：9917359125 数据集配置： - 配置名称：xlsum 数据文件： - 划分：train（训练集），路径：xlsum/train.parquet - 配置名称：wikilingua 数据文件： - 划分：train（训练集），路径：wikilingua/train.parquet - 配置名称：pubmed_summarization 数据文件： - 划分：train（训练集），路径：pubmed_summarization/train.parquet - 配置名称：arxiv_summarization 数据文件： - 划分：train（训练集），路径：arxiv_summarization/train.parquet - 配置名称：legal_summarization 数据文件： - 划分：train（训练集），路径：legal_summarization/train.parquet - 配置名称：legal_case_document_summarization 数据文件： - 划分：train（训练集），路径：legal_case_document_summarization/train.parquet - 配置名称：scientific_papers 数据文件： - 划分：train（训练集），路径：scientific_papers/train.parquet 任务类别： - 摘要任务（summarization）语言： - 英语（en）标签： - 克罗桑（Croissant） ## [维基灵瓜（wikilingua）数据集](https://huggingface.co/datasets/GEM/wiki_lingua) - 子数据集：wikilingua - 样本量：13.6万（136346） ## [XLSUM数据集](https://huggingface.co/datasets/csebuetnlp/xlsum) - 子数据集：xlsum - 样本量：33.0万（329591） ## [PubMed摘要数据集](https://huggingface.co/datasets/ccdv/pubmed-summarization) - 子数据集：pubmed_summarization - 样本量：13.3万（133215） ## [arXiv摘要数据集](https://huggingface.co/datasets/ccdv/arxiv-summarization) - 子数据集：ccdv/arxiv_summarization - 样本量：21.6万（215913） ## [法律摘要数据集](https://huggingface.co/datasets/lighteval/legal_summarization) - 子数据集：lighteval/legal_summarization - 样本量：2.69万（26860） ## [法律案件文档摘要数据集](https://huggingface.co/datasets/joelniklaus/legal_case_document_summarization) - 子数据集：joelniklaus/legal_case_document_summarization - 样本量：8000（8k） ## [学术论文数据集](https://huggingface.co/datasets/scientific_papers) - 子数据集：scientific_papers - 样本量：19.1万（191k）

提供机构：

wisenut-nlp-team

原始信息汇总

数据集概述

1. xlsum

特征:
- instruction: 字符串
- input: 字符串
- output: 字符串
训练集:
- 字节数: 955724969
- 示例数: 329591
下载大小: 628277760
数据集大小: 955724969

2. wikilingua

特征:
- instruction: 字符串
- input: 字符串
- output: 字符串
训练集:
- 字节数: 319808186
- 示例数: 136346
下载大小: 196608000
数据集大小: 319808186

3. pubmed_summarization

特征:
- instruction: 字符串
- input: 字符串
- output: 字符串
训练集:
- 字节数: 2489671484
- 示例数: 133215
下载大小: 1234132480
数据集大小: 2489671484

4. arxiv_summarization

特征:
- instruction: 字符串
- input: 字符串
- output: 字符串
训练集:
- 字节数: 7640184713
- 示例数: 215913
下载大小: 3918000000
数据集大小: 7640184713

5. legal_summarization

特征:
- instruction: 字符串
- input: 字符串
- output: 字符串
训练集:
- 字节数: 369966238
- 示例数: 26860
下载大小: 166871040
数据集大小: 369966238

6. legal_case_document_summarization

特征:
- instruction: 字符串
- input: 字符串
- output: 字符串
训练集:
- 字节数: 9917359125
- 示例数: 342470
下载大小: 5087234048
数据集大小: 9917359125

7. scientific_papers

特征:
- instruction: 字符串
- input: 字符串
- output: 字符串
训练集:
- 字节数: 9917359125
- 示例数: 342470
下载大小: 4740000000
数据集大小: 9917359125

数据集文件路径

xlsum: xlsum/train.parquet
wikilingua: wikilingua/train.parquet
pubmed_summarization: pubmed_summarization/train.parquet
arxiv_summarization: arxiv_summarization/train.parquet
legal_summarization: legal_summarization/train.parquet
legal_case_document_summarization: legal_case_document_summarization/train.parquet
scientific_papers: scientific_papers/train.parquet