VideoDB OCR Benchmark Dataset

Name: VideoDB OCR Benchmark Dataset
Creator: VideoDB
Published: 2025-02-10 21:20:19
License: 暂无描述

arXiv2025-02-10 更新2025-02-12 收录

下载链接：

https://github.com/video-db/ocr-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

VideoDB OCR Benchmark Dataset是一个由VideoDB创建的开源数据集，包含1477个手动注释的视频帧，跨越多种领域，如代码编辑器、新闻广播、YouTube视频、广告等。该数据集旨在为动态视频环境中的光学字符识别（OCR）任务提供一个综合的基准测试。

VideoDB OCR Benchmark Dataset is an open-source dataset created by VideoDB, which contains 1477 manually annotated video frames spanning a wide range of domains including code editors, news broadcasts, YouTube videos, advertisements, and more. This dataset aims to provide a comprehensive benchmark for optical character recognition (OCR) tasks in dynamic video environments.

提供机构：

VideoDB

创建时间：

2025-02-10

原始信息汇总

Benchmarking Vision-Language Models on Optical Character Recognition in Dynamic Video Environments

Dataset

数据集名称: OCR Benchmark Public Collection
数据集来源: VideoDB
数据集描述: 该数据集基于VideoDB的公共集合，提供了一系列视频及其预定义的场景索引，用于OCR性能的基准测试。
视频类别: 包含金融/商业/新闻文本、法律/教育文本、软件/网络开发/界面设计文本、手写文本以及其他杂项文本类别。
视频列表: 包含多个视频，例如“Stock Market Ticker 01”、“CNBC 01”、“Legal Document 01”等，每个视频都有唯一的Video ID。

Video Name	Category	Video ID
Stock Market Ticker 01	Finance/Business/News Text	m-z-0194c27c-f30c-7803-b2ca-8f1026c940a2
CNBC 01	Finance/Business/News Text	m-z-0194c27d-10a6-7531-9aaf-d7940a9469b1
CNBC 04	Finance/Business/News Text	m-z-0194c27e-19c0-7270-9b2e-d467ff30fd1a
New Paper Reading 04	Finance/Business/News Text	m-z-0194c27d-50bc-7c22-9d73-3756717196d5
Stock Market Ticker 02	Finance/Business/News Text	m-z-0194c27e-fe96-7403-a0d8-17a033e5f595
Legal Document 01	Legal/Educational Text	m-z-0194c270-bbfb-7dd2-aaec-62d909b97b32
Legal Document 03	Legal/Educational Text	m-z-0194c27d-2e68-7e63-b44e-5abbe36938df
Legal Document 05	Legal/Educational Text	m-z-0194c27e-5dcf-73b3-a129-e9217d8e611f
White Board Music Theory 01	Legal/Educational Text	m-z-0194c27d-71a3-72c2-9710-773f6f6b80b5
White Board Music Theory 02	Legal/Educational Text	m-z-0194c27f-60d8-74e2-b777-bfed7d9b49d4
Calculus Limits 01	Legal/Educational Text	m-z-0194c280-0778-7b52-8268-c6f1d00dbd52
React 01	Software/Web Development/UI/UX Text	m-z-0194c27c-d107-7030-b990-0b5cc62f514a
React 03	Software/Web Development/UI/UX Text	m-z-0194c27c-894f-7e11-beac-6da09861f796
React 05	Software/Web Development/UI/UX Text	m-z-0194c272-dd5c-7a62-8d86-a47e3c4e4670
CSS 02	Software/Web Development/UI/UX Text	m-z-0194c27c-aebe-75d0-812f-06fbeb60b7d6
React Animation 01	Software/Web Development/UI/UX Text	m-z-0194c27e-99ce-7fc0-867f-9bc8358d3388
React Animation 02	Software/Web Development/UI/UX Text	m-z-0194c27d-b22a-7982-a796-e332a82d5596
CSS 01	Software/Web Development/UI/UX Text	m-z-0194c27f-a202-7f00-80a9-3bb8a3bf257d
Handwriting Analysis 01	Handwritten Text	m-z-0194c27f-836c-72f2-8c43-2eeedd6dbc2b
Handwriting Analysis 02	Handwritten Text	m-z-0194c27d-98b2-75c0-afff-77c8b24515bc
Cursive Writing Whiteboard	Handwritten Text	m-z-0194c27e-408d-73b1-b550-5bf76fb0339d
Cursive Handwriting 01	Handwritten Text	m-z-0194c27f-e828-7f43-be2e-7fa19bc39dd4
Film Analysis 02	Miscellaneous/Other Text	m-z-0194c27d-d8d7-73b3-b136-1f4af218cb12
Billboard Pederstian	Miscellaneous/Other Text	m-z-0194c27d-f7f8-7d03-b053-7f0e75498476
Walk Sign	Miscellaneous/Other Text	m-z-0194c27f-2095-76a3-bc26-96f1167e2526

搜集汇总

数据集介绍

构建方式

本研究团队通过VideoDB平台自动提取视频帧，并手动标注1,477帧图像，涵盖了代码编辑器、新闻广播、YouTube视频、广告等多个领域的真实世界场景，构建了一个专门用于动态视频环境下的OCR任务的数据集。

特点

该数据集具有多样性、真实性和挑战性，不仅包含了不同领域的文本内容，还涵盖了手写文本、部分遮挡文本等多种复杂情况，为评估和比较视觉语言模型和传统计算机视觉OCR系统提供了丰富的数据基础。

使用方法

用户可以通过GitHub获取该数据集及其基准测试代码，方便地进行模型训练和性能评估。数据集的构建和发布旨在促进视觉语言模型在OCR任务中的应用和研究。

背景与挑战

背景概述

VideoDB OCR Benchmark Dataset是由VideoDB团队提出的一个开源数据集，旨在评估视觉语言模型在动态视频环境下的光学字符识别（OCR）任务性能。该数据集包含了1477个手动注释的视频帧，跨越了代码编辑器、新闻广播、YouTube视频、广告等多个领域。这项工作由Sankalp Nagaonkar、Augustya Sharma、Ashish Choithani和Ashutosh Trivedi等研究人员完成，并于2025年2月10日发表在arXiv上。该数据集的创建，对于推动视觉语言模型在OCR任务中的应用具有重要意义。

当前挑战

该数据集在构建过程中面临的挑战主要包括：1) 动态视频环境中的OCR任务具有很高的复杂性，需要模型能够处理各种变化的光照条件、运动模糊和遮挡等；2) 视频中文字的识别不仅要求高精度，还需要快速处理以应对实时应用场景；3) 构建一个多样化且具有挑战性的数据集，以便全面评估模型在不同场景下的性能。此外，数据集的标注质量也直接影响到模型训练和评估的效果。

常用场景

经典使用场景

VideoDB OCR Benchmark Dataset是一个专为评估光学字符识别（OCR）任务而设计的视频数据集，它包含了1477个经过人工注释的视频帧，涵盖了代码编辑器、新闻广播、YouTube视频、广告等多个现实世界领域。该数据集的经典使用场景在于为各种视频语言模型（VLMs）提供基准测试，以评估它们在动态视频环境中的OCR性能。

衍生相关工作

基于VideoDB OCR Benchmark Dataset，衍生出了一系列相关工作，包括对数据集的扩展、对模型性能的深入分析以及将VLMs应用于新的视频OCR任务。这些工作不仅推动了OCR技术的进步，也为相关领域的应用研究提供了新的视角和方法。

数据集最近研究