Closed Caption News Transcripts from the Internet Archive (2014--2023)
收藏DataONE2023-08-20 更新2024-06-08 收录
下载链接:
https://search.dataone.org/view/sha256:e642c21a532a72452623175b7a35f759869c53732c9e815b9e97bc11f845dc71
下载链接
链接失效反馈官方服务:
资源简介:
Closed Caption News Transcripts from the Internet Archive (2014--2023). The nc- files are ones where the commercials have been stripped out using the data from https://tvnews.stanford.edu/export/commercial For scripts underlying the data pull, see: https://github.com/notnews/archive_news_cc
本数据集为互联网档案馆(Internet Archive)的新闻闭路字幕(Closed Caption)转录文本,时间跨度为2014年至2023年。其中以nc-为前缀的文件,是通过https://tvnews.stanford.edu/export/commercial提供的数据集移除了广告片段后的转录文本。如需获取本次数据抓取所使用的脚本,请访问:https://github.com/notnews/archive_news_cc
创建时间:
2024-03-05



