arubenruben/cnn_dailymail_google_translator
收藏Hugging Face2023-06-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/arubenruben/cnn_dailymail_google_translator
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Portuguese CNN-Dailymail-Google,主要用于摘要和翻译任务。数据集包含两个特征:document和summary,均为字符串类型。数据集分为训练集、验证集和测试集,分别包含10000、5000和10000个样本。数据集的语言为葡萄牙语,标签为Machine Translation。
该数据集名为Portuguese CNN-Dailymail-Google,主要用于摘要和翻译任务。数据集包含两个特征:document和summary,均为字符串类型。数据集分为训练集、验证集和测试集,分别包含10000、5000和10000个样本。数据集的语言为葡萄牙语,标签为Machine Translation。
提供机构:
arubenruben
原始信息汇总
数据集概述
数据集名称
Portuguese CNN-Dailymail-Google
数据集特征
- document: 数据类型为字符串
- summary: 数据类型为字符串
数据集划分
- 训练集: 包含10000个样本,总大小为43257744字节
- 验证集: 包含5000个样本,总大小为19194954字节
- 测试集: 包含10000个样本,总大小为45552717字节
数据集大小
- 下载大小: 64070699字节
- 数据集总大小: 108005415字节
任务类别
- 摘要生成
- 翻译
语言
- 葡萄牙语 (pt)
标签
- 机器翻译



