Gabriel/cnn_daily_swe

Name: Gabriel/cnn_daily_swe
Creator: Gabriel
Published: 2022-10-29 11:53:08
License: 暂无描述

Hugging Face2022-10-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Gabriel/cnn_daily_swe

下载链接

链接失效反馈

官方服务：

资源简介：

瑞典语CNN/DailyMail数据集是通过机器翻译从英文版本转换而来，旨在改进瑞典语摘要任务的下游微调。数据集包含id、article和highlights三个字段，分别表示文章的哈希ID、新闻正文和作者撰写的摘要。数据集分为训练集、验证集和测试集，分别包含287,113、13,368和11,490个实例。

提供机构：

Gabriel

原始信息汇总

Swedish CNN Dailymail Dataset 概述

数据集基本信息

语言: 瑞典语 (sv)
许可证: MIT
大小: 100K<n<1M
源数据集: https://github.com/huggingface/datasets/tree/master/datasets/cnn_dailymail
任务类别:
- 摘要生成
- 文本到文本生成
标签: 条件文本生成

数据集描述

瑞典语 CNN/DailyMail 数据集是通过机器翻译得到的，旨在改善瑞典语摘要生成任务的下游微调。

数据集概要

详细信息可参考原始英文版本：https://huggingface.co/datasets/cnn_dailymail

数据字段

id: 字符串，包含从文章来源URL格式化的SHA1哈希值
article: 字符串，包含新闻文章的主体内容
highlights: 字符串，包含文章作者编写的文章亮点

数据分割

瑞典语 CNN/DailyMail 数据集遵循与原始英文版本相同的分割方式，包含三个分割：训练集、验证集和测试集。

数据集分割	分割中的实例数量
训练集	287,113
验证集	13,368
测试集	11,490

以上信息基于提供的数据集详情页面README文件内容。

5,000+

优质数据集

54 个

任务类型

进入经典数据集