rristo/et_parliament_stenos_summary
收藏Hugging Face2024-04-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/rristo/et_parliament_stenos_summary
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从爱沙尼亚议会速记中收集的。每个文本包含发言者及其文本(可能包含多个发言者的文本)。文本被连接起来,以便最大标记数不超过2048(适用于mBart和类似模型)。该数据集旨在训练比默认Transformer模型允许的更长的文本摘要。
该数据集是从爱沙尼亚议会速记中收集的。每个文本包含发言者及其文本(可能包含多个发言者的文本)。文本被连接起来,以便最大标记数不超过2048(适用于mBart和类似模型)。该数据集旨在训练比默认Transformer模型允许的更长的文本摘要。
提供机构:
rristo
原始信息汇总
数据集概述
数据集名称
Estonian Parliament summary dataset
数据集来源
数据集来源于爱沙尼亚议会速记记录。
数据集目的
用于训练比默认转换器模型允许的稍长文本摘要。
支持的任务
- 摘要生成
语言
- 爱沙尼亚语
数据字段
text: 待摘要的文本,包含讲话者的名称。index_pk: 日程索引,用于追踪原文中的文本来源。ntoks_space: 基于空格分隔的令牌数。ntoks_mbart: 基于mBart分隔的令牌数。ntoks_gpt35: 基于gpt-3.5分隔的令牌数。summary: 文本摘要,由gpt-3.5生成。
数据集大小
- 下载大小: 15133910字节
- 数据集大小: 26634379字节
数据集分割
- 训练集: 3516个样本,24450347字节
- 测试集: 308个样本,2184032字节



