five

TalTechNLP/err-newsroom

收藏
Hugging Face2026-04-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TalTechNLP/err-newsroom
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自爱沙尼亚公共广播网站(ERR)的新闻文章,时间跨度为2016年至2022年。每条新闻文章包含三个文本字段:标题、导语和正文。数据集被划分为训练集、开发集和测试集,其中开发集包含2022年11月的文章,测试集包含2022年12月的文章,其余文章则归入训练集。

该数据集包含来自爱沙尼亚公共广播网站(ERR)的新闻文章,时间跨度为2016年至2022年。每条新闻文章包含三个文本字段:标题、导语和正文。数据集被划分为训练集、开发集和测试集,其中开发集包含2022年11月的文章,测试集包含2022年12月的文章,其余文章则归入训练集。
提供机构:
TalTechNLP
原始信息汇总

ERR Newsroom 数据集

数据集概述

  • 任务类别: 摘要生成、文本到文本生成
  • 语言: 爱沙尼亚语

数据内容

  • 来源: 爱沙尼亚公共广播网站 (https://err.ee)
  • 时间范围: 2016-2022年
  • 文章结构: 每篇新闻文章包含三个文本字段:标题、导语和正文

数据划分

  • 训练集: 包含除2022年11月和12月以外的所有文章
  • 开发集: 包含2022年11月的文章
  • 测试集: 包含2022年12月的文章
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作