five

TALKSUMM

收藏
arXiv2019-06-13 更新2024-06-21 收录
下载链接:
https://github.com/levguy/talksumm
下载链接
链接失效反馈
官方服务:
资源简介:
TALKSUMM数据集是由IBM研究院创建的,旨在通过会议演讲视频自动生成科学论文的摘要。该数据集包含1716篇来自多个计算机科学会议的论文摘要,每篇摘要都是基于论文作者的演讲视频自动提取的。创建过程中,研究团队利用了自动语音识别技术提取演讲内容,并通过算法将演讲内容与论文文本对齐,生成摘要。此数据集的应用领域主要集中在科学论文的自动摘要生成,旨在帮助研究者快速获取论文核心内容,提高研究效率。

The TALKSUMM dataset was developed by IBM Research for the automatic generation of scientific paper abstracts from conference presentation videos. It comprises 1716 paper abstracts collected from multiple computer science conferences, with each abstract automatically extracted based on the presentation videos of the corresponding paper’s authors. During the dataset construction, the research team utilized automatic speech recognition (ASR) technology to extract speech content, and aligned the extracted speech with the original paper text through algorithms to produce the final abstracts. The main application scope of this dataset is automatic abstract generation for scientific papers, which aims to help researchers quickly acquire the core content of papers and improve research efficiency.
提供机构:
IBM研究院,海法,以色列
创建时间:
2019-06-04
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作