five

SlideAVSR

收藏
arXiv2024-01-18 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2401.09759v1
下载链接
链接失效反馈
官方服务:
资源简介:
SlideAVSR是一个专为视听语音识别(AVSR)设计的数据集,由早稻田大学等机构创建。该数据集包含245个科学论文解释视频,旨在评估AVSR模型在更广泛视觉内容中的图像理解能力。数据集通过从YouTube收集视频,并应用多种过滤和精炼过程来确保数据质量。SlideAVSR特别关注技术术语的准确转录,这些术语在没有参考文本的情况下难以转录。该数据集适用于开发和评估能够利用视频中文字信息的AVSR模型,解决复杂技术术语识别的问题。

SlideAVSR is a dataset tailored for audio-visual speech recognition (AVSR), developed by institutions including Waseda University. This dataset contains 245 explanatory videos of scientific papers, aiming to evaluate the image understanding capability of AVSR models when processing a wider range of visual content. The dataset is built by collecting videos from YouTube and applying multiple filtering and refinement procedures to ensure data quality. SlideAVSR places special emphasis on accurate transcription of technical terms, which are difficult to transcribe without reference texts. This dataset is suitable for developing and evaluating AVSR models that can leverage textual information from videos, addressing the challenge of recognizing complex technical terms.
提供机构:
早稻田大学
创建时间:
2024-01-18
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作