TalTechNLP/samsum_ee
收藏Hugging Face2024-04-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TalTechNLP/samsum_ee
下载链接
链接失效反馈官方服务:
资源简介:
SamSum EE是一个爱沙尼亚语的对话摘要数据集,它是samsum数据集的机器翻译子集。该数据集包含对话和摘要的文本,分别有爱沙尼亚语和英语版本。数据集的结构包括id、dialogue、summary、en_dialogue和en_summary五个字段。数据集分为训练集、测试集和验证集三个部分,分别包含14732、819和818个样本。
提供机构:
TalTechNLP
原始信息汇总
数据集概述
数据集摘要
SamSum EE 是一个爱沙尼亚语对话摘要数据集,是 samsum 数据集的机器翻译子集。
支持的语言
- 爱沙尼亚语
数据结构
数据字段
- id: 数据点的唯一标识符。
- dialogue: 爱沙尼亚语的对话记录。
- summary: 爱沙尼亚语的对话摘要。
- en_dialogue: 英语的对话记录。
- en_summary: 英语的对话摘要。
数据分割
- train: 包含 14732 个样本,大小为 18445826 字节。
- test: 包含 819 个样本,大小为 1091645 字节。
- validation: 包含 818 个样本,大小为 1059869 字节。
数据集大小
- 下载大小: 13190777 字节
- 数据集大小: 20597340 字节



