TalTechNLP/ERRnews
收藏Hugging Face2025-10-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TalTechNLP/ERRnews
下载链接
链接失效反馈官方服务:
资源简介:
ERRnews是一个爱沙尼亚语的数据集,包含了从ERR档案(https://arhiiv.err.ee/err-audioarhiiv)中抓取的ERR新闻广播的新闻故事脚本。这些脚本是由自动语音识别(ASR)系统生成的,并与档案中的手工编写的摘要配对。为了利用更大的英语模型,数据集还包括了通过机器翻译(https://neurotolge.ee/)的新闻脚本和摘要对。
ERRnews is an Estonian language summarization dataset of ERR News broadcasts scraped from the ERR Archive (https://arhiiv.err.ee/err-audioarhiiv). The dataset consists of news story transcripts generated by an ASR pipeline paired with the human written summary from the archive. For leveraging larger english models the dataset includes machine translated (https://neurotolge.ee/) transcript and summary pairs.
提供机构:
TalTechNLP
原始信息汇总
数据集概述 - ERRnews
数据集描述
数据集总结
ERRnews 是一个爱沙尼亚语的摘要数据集,包含从 ERR 档案(https://arhiiv.err.ee/err-audioarhiiv)抓取的 ERR 新闻广播。数据集由自动语音识别(ASR)系统生成的音频文件转录文本和档案中的人工编写摘要组成。此外,为了利用更大的英语模型,数据集还包括机器翻译(https://neurotolge.ee/)的转录文本和摘要对。
支持的任务和排行榜
[更多信息待补充]
语言
爱沙尼亚语
数据集结构
数据实例
数据集中的每个实例包括新闻故事标题、人工编写的摘要、自动生成的转录文本、ERR 档案的 URL、档案元数据、机器翻译的英语摘要和转录文本,以及音频文件的详细信息和标识符。
数据字段
- name: 新闻故事标题
- summary: 人工编写的摘要
- transcript: 自动生成的转录文本
- url: ERR 档案的 URL
- meta: ERR 档案的元数据
- en_summary: 机器翻译的英语摘要
- en_transcript: 机器翻译的英语转录文本
- audio: 音频文件的详细信息,包括路径、解码音频数组和采样率
- recording_id: 音频文件的标识符
数据分割
- train: 10420
- validation: 523
- test: 523
引用信息
bibtex article{henryabstractive, title={Abstractive Summarization of Broadcast News Stories for {Estonian}}, author={Henry, H{"a}rm and Tanel, Alum{"a}e}, journal={Baltic J. Modern Computing}, volume={10}, number={3}, pages={511-524}, year={2022} }



