five

rristo/et_parliament_stenos_summary

收藏
Hugging Face2024-04-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/rristo/et_parliament_stenos_summary
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从爱沙尼亚议会速记中收集的。每个文本包含发言者及其文本(可能包含多个发言者的文本)。文本被连接起来,以便最大标记数不超过2048(适用于mBart和类似模型)。该数据集旨在训练比默认Transformer模型允许的更长的文本摘要。

该数据集是从爱沙尼亚议会速记中收集的。每个文本包含发言者及其文本(可能包含多个发言者的文本)。文本被连接起来,以便最大标记数不超过2048(适用于mBart和类似模型)。该数据集旨在训练比默认Transformer模型允许的更长的文本摘要。
提供机构:
rristo
原始信息汇总

数据集概述

数据集名称

Estonian Parliament summary dataset

数据集来源

数据集来源于爱沙尼亚议会速记记录。

数据集目的

用于训练比默认转换器模型允许的稍长文本摘要。

支持的任务

  • 摘要生成

语言

  • 爱沙尼亚语

数据字段

  • text: 待摘要的文本,包含讲话者的名称。
  • index_pk: 日程索引,用于追踪原文中的文本来源。
  • ntoks_space: 基于空格分隔的令牌数。
  • ntoks_mbart: 基于mBart分隔的令牌数。
  • ntoks_gpt35: 基于gpt-3.5分隔的令牌数。
  • summary: 文本摘要,由gpt-3.5生成。

数据集大小

  • 下载大小: 15133910字节
  • 数据集大小: 26634379字节

数据集分割

  • 训练集: 3516个样本,24450347字节
  • 测试集: 308个样本,2184032字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作