nortsformer/cnn_dailymail_tokenized_lemmatized_nltk

Name: nortsformer/cnn_dailymail_tokenized_lemmatized_nltk
Creator: nortsformer
Published: 2024-02-14 09:22:18
License: 暂无描述

Hugging Face2024-02-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nortsformer/cnn_dailymail_tokenized_lemmatized_nltk

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: article dtype: string - name: highlights dtype: string - name: id dtype: string - name: tokenized_article sequence: string splits: - name: train num_bytes: 2900176608 num_examples: 287113 - name: validation num_bytes: 132549023 num_examples: 13368 - name: test num_bytes: 114934628 num_examples: 11490 download_size: 1295538330 dataset_size: 3147660259 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* ---

提供机构：

nortsformer

原始信息汇总

数据集概述

数据特征

article: 数据类型为字符串。
highlights: 数据类型为字符串。
id: 数据类型为字符串。
tokenized_article: 数据类型为字符串序列。

数据分割

train: 包含287113个样本，总字节数为2900176608。
validation: 包含13368个样本，总字节数为132549023。
test: 包含11490个样本，总字节数为114934628。

数据大小

下载大小: 1295538330字节。
数据集大小: 3147660259字节。

配置

config_name: default
- data_files:
  - train: 路径为data/train-*
  - validation: 路径为data/validation-*
  - test: 路径为data/test-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集