five

Closed Caption News Transcripts from the Internet Archive (2014--2023)

收藏
DataONE2023-08-20 更新2024-06-08 收录
下载链接:
https://search.dataone.org/view/sha256:e642c21a532a72452623175b7a35f759869c53732c9e815b9e97bc11f845dc71
下载链接
链接失效反馈
官方服务:
资源简介:
Closed Caption News Transcripts from the Internet Archive (2014--2023). The nc- files are ones where the commercials have been stripped out using the data from https://tvnews.stanford.edu/export/commercial For scripts underlying the data pull, see: https://github.com/notnews/archive_news_cc

本数据集为互联网档案馆(Internet Archive)的新闻闭路字幕(Closed Caption)转录文本,时间跨度为2014年至2023年。其中以nc-为前缀的文件,是通过https://tvnews.stanford.edu/export/commercial提供的数据集移除了广告片段后的转录文本。如需获取本次数据抓取所使用的脚本,请访问:https://github.com/notnews/archive_news_cc
创建时间:
2024-03-05
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作