wisenut-nlp-team/llama_en_smr
收藏Hugging Face2024-05-14 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/wisenut-nlp-team/llama_en_smr
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: xlsum
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output
dtype: string
splits:
- name: train
num_bytes: 955724969
num_examples: 329591
download_size: 628277760
dataset_size: 955724969
- config_name: wikilingua
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output
dtype: string
splits:
- name: train
num_bytes: 319808186
num_examples: 136346
download_size: 196608000
dataset_size: 319808186
- config_name: pubmed_summarization
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output
dtype: string
splits:
- name: train
num_bytes: 2489671484
num_examples: 133215
download_size: 1234132480
dataset_size: 2489671484
- config_name: arxiv_summarization
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output
dtype: string
splits:
- name: train
num_bytes: 7640184713
num_examples: 215913
download_size: 3918000000
dataset_size: 7640184713
- config_name: legal_summarization
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output
dtype: string
splits:
- name: train
num_bytes: 369966238
num_examples: 26860
download_size: 166871040
dataset_size: 369966238
- config_name: legal_case_document_summarization
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output
dtype: string
splits:
- name: train
num_bytes: 9917359125
num_examples: 342470
download_size: 5087234048
dataset_size: 9917359125
- config_name: scientific_papers
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output
dtype: string
splits:
- name: train
num_bytes: 9917359125
num_examples: 342470
download_size: 4740000000
dataset_size: 9917359125
configs:
- config_name: xlsum
data_files:
- split: train
path: xlsum/train.parquet
- config_name: wikilingua
data_files:
- split: train
path: wikilingua/train.parquet
- config_name: pubmed_summarization
data_files:
- split: train
path: pubmed_summarization/train.parquet
- config_name: arxiv_summarization
data_files:
- split: train
path: arxiv_summarization/train.parquet
- config_name: legal_summarization
data_files:
- split: train
path: legal_summarization/train.parquet
- config_name: legal_case_document_summarization
data_files:
- split: train
path: legal_case_document_summarization/train.parquet
- config_name: scientific_papers
data_files:
- split: train
path: scientific_papers/train.parquet
task_categories:
- summarization
language:
- en
tags:
- croissant
---
## [wikilingua](https://huggingface.co/datasets/GEM/wiki_lingua)
- subset: wikilingua
- length: 136k
## [xlsum](https://huggingface.co/datasets/csebuetnlp/xlsum)
- subset: xlsum
- length: 330k
## [pubmed summarization](https://huggingface.co/datasets/ccdv/pubmed-summarization)
- subset: pubmed_summarization
- length: 133k
## [arxiv_summarization](https://huggingface.co/datasets/ccdv/arxiv-summarization)
- subset: ccdv/arxiv_summarization
- length: 216k
## [legal_summarization](https://huggingface.co/datasets/lighteval/legal_summarization)
- subset: lighteval/legal_summarization
- length: 26.9k
## [legal_case_document_summarization](https://huggingface.co/datasets/joelniklaus/legal_case_document_summarization)
- subset: joelniklaus/legal_case_document_summarization
- length: 8k
## [scientific_papers](https://huggingface.co/datasets/scientific_papers)
- subset: scientific_papers
- length: 191k
数据集信息:
- 配置名称:xlsum
特征字段:
- 字段名:instruction,数据类型:字符串类型
- 字段名:input,数据类型:字符串类型
- 字段名:output,数据类型:字符串类型
数据划分:
- 划分名称:train(训练集),字节数:955724969,样本数:329591
下载大小:628277760
数据集总大小:955724969
- 配置名称:wikilingua
特征字段:
- 字段名:instruction,数据类型:字符串类型
- 字段名:input,数据类型:字符串类型
- 字段名:output,数据类型:字符串类型
数据划分:
- 划分名称:train(训练集),字节数:319808186,样本数:136346
下载大小:196608000
数据集总大小:319808186
- 配置名称:pubmed_summarization
特征字段:
- 字段名:instruction,数据类型:字符串类型
- 字段名:input,数据类型:字符串类型
- 字段名:output,数据类型:字符串类型
数据划分:
- 划分名称:train(训练集),字节数:2489671484,样本数:133215
下载大小:1234132480
数据集总大小:2489671484
- 配置名称:arxiv_summarization
特征字段:
- 字段名:instruction,数据类型:字符串类型
- 字段名:input,数据类型:字符串类型
- 字段名:output,数据类型:字符串类型
数据划分:
- 划分名称:train(训练集),字节数:7640184713,样本数:215913
下载大小:3918000000
数据集总大小:7640184713
- 配置名称:legal_summarization
特征字段:
- 字段名:instruction,数据类型:字符串类型
- 字段名:input,数据类型:字符串类型
- 字段名:output,数据类型:字符串类型
数据划分:
- 划分名称:train(训练集),字节数:369966238,样本数:26860
下载大小:166871040
数据集总大小:369966238
- 配置名称:legal_case_document_summarization
特征字段:
- 字段名:instruction,数据类型:字符串类型
- 字段名:input,数据类型:字符串类型
- 字段名:output,数据类型:字符串类型
数据划分:
- 划分名称:train(训练集),字节数:9917359125,样本数:342470
下载大小:5087234048
数据集总大小:9917359125
- 配置名称:scientific_papers
特征字段:
- 字段名:instruction,数据类型:字符串类型
- 字段名:input,数据类型:字符串类型
- 字段名:output,数据类型:字符串类型
数据划分:
- 划分名称:train(训练集),字节数:9917359125,样本数:342470
下载大小:4740000000
数据集总大小:9917359125
数据集配置:
- 配置名称:xlsum
数据文件:
- 划分:train(训练集),路径:xlsum/train.parquet
- 配置名称:wikilingua
数据文件:
- 划分:train(训练集),路径:wikilingua/train.parquet
- 配置名称:pubmed_summarization
数据文件:
- 划分:train(训练集),路径:pubmed_summarization/train.parquet
- 配置名称:arxiv_summarization
数据文件:
- 划分:train(训练集),路径:arxiv_summarization/train.parquet
- 配置名称:legal_summarization
数据文件:
- 划分:train(训练集),路径:legal_summarization/train.parquet
- 配置名称:legal_case_document_summarization
数据文件:
- 划分:train(训练集),路径:legal_case_document_summarization/train.parquet
- 配置名称:scientific_papers
数据文件:
- 划分:train(训练集),路径:scientific_papers/train.parquet
任务类别:
- 摘要任务(summarization)
语言:
- 英语(en)
标签:
- 克罗桑(Croissant)
## [维基灵瓜(wikilingua)数据集](https://huggingface.co/datasets/GEM/wiki_lingua)
- 子数据集:wikilingua
- 样本量:13.6万(136346)
## [XLSUM数据集](https://huggingface.co/datasets/csebuetnlp/xlsum)
- 子数据集:xlsum
- 样本量:33.0万(329591)
## [PubMed摘要数据集](https://huggingface.co/datasets/ccdv/pubmed-summarization)
- 子数据集:pubmed_summarization
- 样本量:13.3万(133215)
## [arXiv摘要数据集](https://huggingface.co/datasets/ccdv/arxiv-summarization)
- 子数据集:ccdv/arxiv_summarization
- 样本量:21.6万(215913)
## [法律摘要数据集](https://huggingface.co/datasets/lighteval/legal_summarization)
- 子数据集:lighteval/legal_summarization
- 样本量:2.69万(26860)
## [法律案件文档摘要数据集](https://huggingface.co/datasets/joelniklaus/legal_case_document_summarization)
- 子数据集:joelniklaus/legal_case_document_summarization
- 样本量:8000(8k)
## [学术论文数据集](https://huggingface.co/datasets/scientific_papers)
- 子数据集:scientific_papers
- 样本量:19.1万(191k)
提供机构:
wisenut-nlp-team
原始信息汇总
数据集概述
1. xlsum
- 特征:
- instruction: 字符串
- input: 字符串
- output: 字符串
- 训练集:
- 字节数: 955724969
- 示例数: 329591
- 下载大小: 628277760
- 数据集大小: 955724969
2. wikilingua
- 特征:
- instruction: 字符串
- input: 字符串
- output: 字符串
- 训练集:
- 字节数: 319808186
- 示例数: 136346
- 下载大小: 196608000
- 数据集大小: 319808186
3. pubmed_summarization
- 特征:
- instruction: 字符串
- input: 字符串
- output: 字符串
- 训练集:
- 字节数: 2489671484
- 示例数: 133215
- 下载大小: 1234132480
- 数据集大小: 2489671484
4. arxiv_summarization
- 特征:
- instruction: 字符串
- input: 字符串
- output: 字符串
- 训练集:
- 字节数: 7640184713
- 示例数: 215913
- 下载大小: 3918000000
- 数据集大小: 7640184713
5. legal_summarization
- 特征:
- instruction: 字符串
- input: 字符串
- output: 字符串
- 训练集:
- 字节数: 369966238
- 示例数: 26860
- 下载大小: 166871040
- 数据集大小: 369966238
6. legal_case_document_summarization
- 特征:
- instruction: 字符串
- input: 字符串
- output: 字符串
- 训练集:
- 字节数: 9917359125
- 示例数: 342470
- 下载大小: 5087234048
- 数据集大小: 9917359125
7. scientific_papers
- 特征:
- instruction: 字符串
- input: 字符串
- output: 字符串
- 训练集:
- 字节数: 9917359125
- 示例数: 342470
- 下载大小: 4740000000
- 数据集大小: 9917359125
数据集文件路径
- xlsum: xlsum/train.parquet
- wikilingua: wikilingua/train.parquet
- pubmed_summarization: pubmed_summarization/train.parquet
- arxiv_summarization: arxiv_summarization/train.parquet
- legal_summarization: legal_summarization/train.parquet
- legal_case_document_summarization: legal_case_document_summarization/train.parquet
- scientific_papers: scientific_papers/train.parquet



