five

SlideASR-Bench

收藏
github2025-10-17 更新2025-10-19 收录
下载链接:
https://github.com/isruihu/SlideASR-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
SlideASR-Bench是一个新的实体丰富基准数据集,包含用于训练和测试的合成数据集以及用于评估的具有挑战性的真实世界数据集,专门用于支持SlideASR任务的研究

SlideASR-Bench is a novel entity-rich benchmark dataset that encompasses synthetic datasets for training and testing, as well as challenging real-world datasets for evaluation, and is specifically designed to support research on the SlideASR task.
创建时间:
2025-10-13
原始信息汇总

SlideASR-Bench 数据集概述

数据集简介

SlideASR-Bench 是一个专为 SlideASR 任务构建的实体丰富基准数据集。该任务旨在利用演示文稿幻灯片中的丰富视觉信息来提高转录准确性,特别是在学术讲座等专业场景中。

数据集构成

  • 合成数据集:用于训练和测试
  • 真实世界数据集:用于评估,具有挑战性

核心特征

  • 专注于领域特定术语的识别
  • 包含丰富的实体内容
  • 支持视觉信息辅助的语音识别研究

数据获取

数据集可通过以下地址下载: https://huggingface.co/datasets/RUIH/SlideASR-Bench

相关模型

  • VAPO-3B 模型:https://huggingface.co/RUIH/VAPO-3B
  • VAPO-7B 模型:https://huggingface.co/RUIH/VAPO-7B

实验验证

该数据集经过广泛实验验证,证明 VAPO 方法能显著提高领域特定术语的识别准确率。

致谢

感谢 ContextASR-Bench 提供数据集支持。

搜集汇总
数据集介绍
main_image_url
构建方式
在学术演讲自动语音识别研究领域,SlideASR-Bench数据集的构建采用了双轨并行策略。该基准包含精心设计的合成数据集与真实世界评估集,其中合成数据通过模拟学术演讲场景生成,真实数据集则采集自实际讲座环境。构建过程中特别注重领域专业术语的覆盖,确保数据能够充分反映学术场景下的语言特征。数据标注遵循严格的视觉-语音对齐原则,为后续模型训练提供可靠基础。
特点
该数据集最显著的特征在于其丰富的实体内容与多模态特性。数据集特别强调学术场景中的专业术语识别,包含大量领域特定词汇和概念。视觉信息与语音内容的紧密关联构成其核心特点,每段语音数据都配有对应的演示幻灯片视觉内容。这种设计使得数据集能够有效评估模型在复杂学术环境下的跨模态理解能力,为研究视觉信息如何辅助语音识别提供了理想平台。
使用方法
使用该数据集时,研究人员需按照标准流程配置实验环境。首先通过Huggingface平台获取数据集文件,将其置于指定资源目录。运行前需安装必要的依赖包并配置模型路径,建议启用FlashAttention 2以优化GPU内存使用。评估阶段支持两种设置模式,用户可根据需要选择是否启用幻灯片文本上下文功能。通过执行标准化脚本即可完成模型在数据集上的性能测试,确保实验结果的可比性与可复现性。
背景与挑战
背景概述
在自动语音识别技术快速发展的背景下,学术讲座等专业场景中的领域特定术语识别仍面临显著困难。SlideASR-Bench数据集由RUIH团队于2025年创建,旨在通过融合演示文稿的视觉信息提升语音转录精度。该数据集聚焦于SlideASR任务的核心研究问题——如何有效利用幻灯片视觉内容增强语音识别性能,其创新性体现在构建端到端评估框架,为多模态语音识别研究提供了重要基准。
当前挑战
该数据集致力于解决学术场景下领域术语识别准确性的核心挑战,传统流水线方法存在结构复杂与性能不足的缺陷。在构建过程中面临双重困难:一方面需要协调合成数据与真实场景数据的语义一致性,另一方面需克服多模态大语言模型退化为纯光学字符识别系统的倾向。视觉锚定策略的优化还需平衡格式合规性、OCR精度、ASR质量与视觉一致性等多目标奖励机制。
常用场景
经典使用场景
在学术讲座自动语音识别领域,SlideASR-Bench数据集被广泛应用于端到端语音转录系统的开发与评估。该数据集通过结合幻灯片视觉信息,为模型提供了丰富的上下文线索,特别适用于处理包含专业术语和实体名称的学术内容。研究人员利用该数据集训练模型实现视觉引导的语音识别,显著提升了在复杂学术场景下的转录准确性。
衍生相关工作
基于SlideASR-Bench数据集,研究社区衍生出多项重要工作。视觉锚定策略优化方法为多模态语音识别开辟了新范式,启发了后续关于思维链推理在语音识别中应用的研究。该数据集还促进了OCR与ASR技术融合的探索,推动了面向专业领域的端到端语音识别系统的持续创新。
数据集最近研究
最新研究方向
在学术讲座自动语音识别领域,SlideASR-Bench数据集的推出标志着多模态融合研究的重要进展。该数据集聚焦于解决专业术语识别难题,通过引入视觉锚定策略优化方法,构建起端到端的幻灯片语音识别新范式。前沿研究正致力于突破传统流水线方法的局限,探索基于思维链推理的视觉-语言协同机制,利用强化学习优化OCR与ASR的跨模态对齐。这一方向不仅显著提升了领域特定实体的识别准确率,更为教育科技与智能会议系统提供了可扩展的解决方案,推动人机交互向更精准、更智能的方向演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作