five

TalTechNLP/EstimeneStuudio

收藏
Hugging Face2024-04-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TalTechNLP/EstimeneStuudio
下载链接
链接失效反馈
官方服务:
资源简介:
EsimeneStuudio是一个关于ERR Esimene Stuudio谈话节目的人类标注摘要数据集。数据集包含三个主要字段:transcripts(谈话节目的文字记录,带有说话者标签)、summaries(谈话节目的摘要,带有说话者标签)和ids(节目的唯一标识符)。数据集分为训练集、验证集和测试集,分别包含68、8和9个样本。数据集的语言为爱沙尼亚语。

EsimeneStuudio is a human annotated summarization dataset of ERR Esimene Stuudio talk show. The dataset includes talk show transcripts with speaker tags, summaries with speaker tags, and unique identifiers for each show. The dataset is in Estonian language and is divided into train, validation, and test sets.
提供机构:
TalTechNLP
原始信息汇总

数据集概述

数据集信息

  • 特征:

    • transcripts: 字符串类型,包含带说话者标签的谈话节目转录文本。
    • summaries: 字符串类型,包含带说话者标签的谈话节目摘要。
    • ids: 字符串类型,节目的唯一标识符。
  • 分割:

    • train: 2685551字节,68个样本。
    • validation: 293030字节,8个样本。
    • test: 383552字节,9个样本。
  • 下载大小: 1973090字节

  • 数据集大小: 3362133字节

配置

  • 默认配置:
    • 数据文件:
      • train: data/train-*
      • validation: data/validation-*
      • test: data/test-*

数据集描述

  • 数据集摘要: EsimeneStuudio是一个人类注释的ERR Esimene Stuudio谈话节目摘要数据集。

支持的任务和排行榜

语言

  • 爱沙尼亚语
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作