TalTechNLP/err-newsroom
收藏Hugging Face2026-04-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TalTechNLP/err-newsroom
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自爱沙尼亚公共广播网站(ERR)的新闻文章,时间跨度为2016年至2022年。每条新闻文章包含三个文本字段:标题、导语和正文。数据集被划分为训练集、开发集和测试集,其中开发集包含2022年11月的文章,测试集包含2022年12月的文章,其余文章则归入训练集。
该数据集包含来自爱沙尼亚公共广播网站(ERR)的新闻文章,时间跨度为2016年至2022年。每条新闻文章包含三个文本字段:标题、导语和正文。数据集被划分为训练集、开发集和测试集,其中开发集包含2022年11月的文章,测试集包含2022年12月的文章,其余文章则归入训练集。
提供机构:
TalTechNLP
原始信息汇总
ERR Newsroom 数据集
数据集概述
- 任务类别: 摘要生成、文本到文本生成
- 语言: 爱沙尼亚语
数据内容
- 来源: 爱沙尼亚公共广播网站 (https://err.ee)
- 时间范围: 2016-2022年
- 文章结构: 每篇新闻文章包含三个文本字段:标题、导语和正文
数据划分
- 训练集: 包含除2022年11月和12月以外的所有文章
- 开发集: 包含2022年11月的文章
- 测试集: 包含2022年12月的文章



