Broadcast News
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Broadcast_News
下载链接
链接失效反馈官方服务:
资源简介:
广播新闻是用于下一个单词预测的大型文本数据集,其中包括广播新闻语音语料库,1996年包含来自ABC,CNN和CSPAN电视网络以及NPR和PRI广播网络的104小时的广播,相应的得分为1。
该系列是为DARPA “HUB4” 项目提供广播领域连续语音识别的训练数据。
这个数据集是由宾夕法尼亚大学1997年发布的,
相关论文: "1996英语广播新闻演讲 (HUB4) LDC97S44"
Broadcast News is a large-scale text dataset intended for next-word prediction. It includes a broadcast news speech corpus, which in 1996 contained 104 hours of broadcast content from ABC, CNN, and CSPAN television networks, as well as NPR and PRI radio networks, with a corresponding score of 1. This dataset series was provided as training data for continuous speech recognition in the broadcast domain for the DARPA "HUB4" program. This dataset was released by the University of Pennsylvania in 1997. Associated paper: "1996 English Broadcast News Speech (HUB4) LDC97S44"
提供机构:
OpenDataLab
创建时间:
2023-04-20
搜集汇总
数据集介绍

背景与挑战
背景概述
Broadcast News是一个用于下一个单词预测的大型文本数据集,包含1996年来自多个电视和广播网络的104小时广播新闻语音语料库,由宾夕法尼亚大学于1997年发布,旨在为DARPA HUB4项目提供广播领域连续语音识别的训练数据。
以上内容由遇见数据集搜集并总结生成



