News broadcast text localization dataset

github2018-06-20 更新2024-05-31 收录

下载链接：

https://github.com/mihaipuscas/annotated-ocr-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含4225张从视频新闻广播中提取的图像，这些图像包含新闻服务添加的文本和自然出现的文本。所有图像的大小均为748*432。

This dataset comprises 4,225 images extracted from video news broadcasts, which include both text added by news services and naturally occurring text. All images are uniformly sized at 748*432 pixels.

创建时间：

2015-10-23

原始信息汇总

News broadcast text localization dataset

数据集描述

该数据集包含4225张从视频新闻广播中提取的图像，这些图像中既包含新闻服务添加的文本，也包含自然出现的文本。所有图像的尺寸均为748*432。

下载链接

数据集下载地址：https://www.dropbox.com/s/l076cfy18nmgvgc/euronews_frames.7z?dl=0

评估方法

提供的Matlab代码用于计算OCR文本定位性能的精确度和召回率，使用的是常见的PASCAL IoU阈值0.5。作为演示，我们已在results_captioncapture.txt中包含了一组结果。

使用说明

下载数据集和提供的代码
根据需要修改数据集、标注和OCR输出路径
运行ocr_eval.m

搜集汇总

数据集介绍

构建方式

新闻播报文本定位数据集的构建，是从视频新闻广播中提取出4225张图像，这些图像中既包含新闻机构添加的文本，也包含自然发生的文本。所有图像均为748*432像素的大小，确保了图像处理的统一性。

特点

该数据集的特点在于其丰富的文本类型，既有人工添加的新闻文本，也有自然发生的文本，为文本定位算法提供了多样化的训练样本。同时，数据集的规模适中，有利于算法的快速迭代与优化。

使用方法

用户可通过提供的Matlab代码进行文本定位性能的评估，该代码计算精确度和召回率得分，使用PASCAL IoU阈值为0.5。使用时，用户需下载数据集及代码，根据需要修改数据集、注释和OCR输出路径，然后运行ocr_eval.m文件即可。

背景与挑战

背景概述

新闻广播文本定位数据集（News broadcast text localization dataset）是在现代信息检索与图像处理领域具有重要研究价值的资源。该数据集创建于近年来，由专业的数据科学家团队开发，包含了4225张从视频新闻广播中提取的图像。这些图像中既有新闻机构添加的文字，也有自然发生的文字内容。该数据集的成立旨在解决图像中文字检测与识别的问题，为光学字符识别（OCR）技术的发展提供了丰富的实验材料，对于自然语言处理、计算机视觉等领域产生了深远的影响。

当前挑战

该数据集在构建与应用过程中面临的挑战主要包括：首先，如何精确地区分并提取图像中的人工添加文本与自然文本，这对于后续的文本识别具有重要意义；其次，数据集的多样性和复杂性对OCR算法的鲁棒性提出了更高的要求；再者，评估OCR文本定位性能的标准不统一，需要采用如PASCAL IoU阈值等指标来衡量算法的精确度和召回率。这些挑战推动了相关技术的进步，也为研究人员提供了不断优化的空间。

常用场景

经典使用场景

新闻播报文本定位数据集（News broadcast text localization dataset）是计算机视觉与自然语言处理领域的一项重要资源。该数据集被广泛用于图像中文本检测与识别任务，其经典的使用场景在于训练模型以识别新闻视频中嵌入的文字信息，包括新闻服务添加的文本以及画面中自然出现的文本，从而提升OCR（光学字符识别）技术的准确性和鲁棒性。

衍生相关工作

基于新闻播报文本定位数据集的研究成果，衍生出了一系列相关工作，如视频文本检测、视频内容理解以及跨模态信息检索等。这些研究不仅推动了计算机视觉和自然语言处理领域的融合，也为智能视频分析技术的发展提供了新的视角和方法论。

数据集最近研究