VideoDB OCR Benchmark Dataset
收藏arXiv2025-02-10 更新2025-02-12 收录
下载链接:
https://github.com/video-db/ocr-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
VideoDB OCR Benchmark Dataset是一个由VideoDB创建的开源数据集,包含1477个手动注释的视频帧,跨越多种领域,如代码编辑器、新闻广播、YouTube视频、广告等。该数据集旨在为动态视频环境中的光学字符识别(OCR)任务提供一个综合的基准测试。
VideoDB OCR Benchmark Dataset is an open-source dataset created by VideoDB, which contains 1477 manually annotated video frames spanning a wide range of domains including code editors, news broadcasts, YouTube videos, advertisements, and more. This dataset aims to provide a comprehensive benchmark for optical character recognition (OCR) tasks in dynamic video environments.
提供机构:
VideoDB
创建时间:
2025-02-10
原始信息汇总
Benchmarking Vision-Language Models on Optical Character Recognition in Dynamic Video Environments
Dataset
- 数据集名称: OCR Benchmark Public Collection
- 数据集来源: VideoDB
- 数据集描述: 该数据集基于VideoDB的公共集合,提供了一系列视频及其预定义的场景索引,用于OCR性能的基准测试。
- 视频类别: 包含金融/商业/新闻文本、法律/教育文本、软件/网络开发/界面设计文本、手写文本以及其他杂项文本类别。
- 视频列表: 包含多个视频,例如“Stock Market Ticker 01”、“CNBC 01”、“Legal Document 01”等,每个视频都有唯一的Video ID。
| Video Name | Category | Video ID |
|---|---|---|
| Stock Market Ticker 01 | Finance/Business/News Text | m-z-0194c27c-f30c-7803-b2ca-8f1026c940a2 |
| CNBC 01 | Finance/Business/News Text | m-z-0194c27d-10a6-7531-9aaf-d7940a9469b1 |
| CNBC 04 | Finance/Business/News Text | m-z-0194c27e-19c0-7270-9b2e-d467ff30fd1a |
| New Paper Reading 04 | Finance/Business/News Text | m-z-0194c27d-50bc-7c22-9d73-3756717196d5 |
| Stock Market Ticker 02 | Finance/Business/News Text | m-z-0194c27e-fe96-7403-a0d8-17a033e5f595 |
| Legal Document 01 | Legal/Educational Text | m-z-0194c270-bbfb-7dd2-aaec-62d909b97b32 |
| Legal Document 03 | Legal/Educational Text | m-z-0194c27d-2e68-7e63-b44e-5abbe36938df |
| Legal Document 05 | Legal/Educational Text | m-z-0194c27e-5dcf-73b3-a129-e9217d8e611f |
| White Board Music Theory 01 | Legal/Educational Text | m-z-0194c27d-71a3-72c2-9710-773f6f6b80b5 |
| White Board Music Theory 02 | Legal/Educational Text | m-z-0194c27f-60d8-74e2-b777-bfed7d9b49d4 |
| Calculus Limits 01 | Legal/Educational Text | m-z-0194c280-0778-7b52-8268-c6f1d00dbd52 |
| React 01 | Software/Web Development/UI/UX Text | m-z-0194c27c-d107-7030-b990-0b5cc62f514a |
| React 03 | Software/Web Development/UI/UX Text | m-z-0194c27c-894f-7e11-beac-6da09861f796 |
| React 05 | Software/Web Development/UI/UX Text | m-z-0194c272-dd5c-7a62-8d86-a47e3c4e4670 |
| CSS 02 | Software/Web Development/UI/UX Text | m-z-0194c27c-aebe-75d0-812f-06fbeb60b7d6 |
| React Animation 01 | Software/Web Development/UI/UX Text | m-z-0194c27e-99ce-7fc0-867f-9bc8358d3388 |
| React Animation 02 | Software/Web Development/UI/UX Text | m-z-0194c27d-b22a-7982-a796-e332a82d5596 |
| CSS 01 | Software/Web Development/UI/UX Text | m-z-0194c27f-a202-7f00-80a9-3bb8a3bf257d |
| Handwriting Analysis 01 | Handwritten Text | m-z-0194c27f-836c-72f2-8c43-2eeedd6dbc2b |
| Handwriting Analysis 02 | Handwritten Text | m-z-0194c27d-98b2-75c0-afff-77c8b24515bc |
| Cursive Writing Whiteboard | Handwritten Text | m-z-0194c27e-408d-73b1-b550-5bf76fb0339d |
| Cursive Handwriting 01 | Handwritten Text | m-z-0194c27f-e828-7f43-be2e-7fa19bc39dd4 |
| Film Analysis 02 | Miscellaneous/Other Text | m-z-0194c27d-d8d7-73b3-b136-1f4af218cb12 |
| Billboard Pederstian | Miscellaneous/Other Text | m-z-0194c27d-f7f8-7d03-b053-7f0e75498476 |
| Walk Sign | Miscellaneous/Other Text | m-z-0194c27f-2095-76a3-bc26-96f1167e2526 |
搜集汇总
数据集介绍

构建方式
本研究团队通过VideoDB平台自动提取视频帧,并手动标注1,477帧图像,涵盖了代码编辑器、新闻广播、YouTube视频、广告等多个领域的真实世界场景,构建了一个专门用于动态视频环境下的OCR任务的数据集。
特点
该数据集具有多样性、真实性和挑战性,不仅包含了不同领域的文本内容,还涵盖了手写文本、部分遮挡文本等多种复杂情况,为评估和比较视觉语言模型和传统计算机视觉OCR系统提供了丰富的数据基础。
使用方法
用户可以通过GitHub获取该数据集及其基准测试代码,方便地进行模型训练和性能评估。数据集的构建和发布旨在促进视觉语言模型在OCR任务中的应用和研究。
背景与挑战
背景概述
VideoDB OCR Benchmark Dataset是由VideoDB团队提出的一个开源数据集,旨在评估视觉语言模型在动态视频环境下的光学字符识别(OCR)任务性能。该数据集包含了1477个手动注释的视频帧,跨越了代码编辑器、新闻广播、YouTube视频、广告等多个领域。这项工作由Sankalp Nagaonkar、Augustya Sharma、Ashish Choithani和Ashutosh Trivedi等研究人员完成,并于2025年2月10日发表在arXiv上。该数据集的创建,对于推动视觉语言模型在OCR任务中的应用具有重要意义。
当前挑战
该数据集在构建过程中面临的挑战主要包括:1) 动态视频环境中的OCR任务具有很高的复杂性,需要模型能够处理各种变化的光照条件、运动模糊和遮挡等;2) 视频中文字的识别不仅要求高精度,还需要快速处理以应对实时应用场景;3) 构建一个多样化且具有挑战性的数据集,以便全面评估模型在不同场景下的性能。此外,数据集的标注质量也直接影响到模型训练和评估的效果。
常用场景
经典使用场景
VideoDB OCR Benchmark Dataset是一个专为评估光学字符识别(OCR)任务而设计的视频数据集,它包含了1477个经过人工注释的视频帧,涵盖了代码编辑器、新闻广播、YouTube视频、广告等多个现实世界领域。该数据集的经典使用场景在于为各种视频语言模型(VLMs)提供基准测试,以评估它们在动态视频环境中的OCR性能。
衍生相关工作
基于VideoDB OCR Benchmark Dataset,衍生出了一系列相关工作,包括对数据集的扩展、对模型性能的深入分析以及将VLMs应用于新的视频OCR任务。这些工作不仅推动了OCR技术的进步,也为相关领域的应用研究提供了新的视角和方法。
数据集最近研究
最新研究方向
本研究介绍了一个名为VideoDB OCR Benchmark Dataset的数据集,该数据集由1,477个手动注释的视频帧组成,涵盖了代码编辑器、新闻广播、YouTube视频、广告等多种实际应用领域。研究旨在评估视觉语言模型(VLMs)在动态视频环境中的光学字符识别(OCR)任务上的性能,并与传统的计算机视觉OCR系统进行了比较。结果显示,VLMs在平均准确度方面表现出色,特别是在法律/教育内容领域达到了约84%的准确度,显示出在这些任务上替代传统方法的潜力。未来工作将致力于提高模型的鲁棒性,特别是在视频质量、字体样式和复杂背景方面的适应性。
相关研究论文
- 1Benchmarking Vision-Language Models on Optical Character Recognition in Dynamic Video EnvironmentsVideoDB · 2025年
以上内容由遇见数据集搜集并总结生成



