LTB

github2025-05-22 更新2025-05-23 收录

下载链接：

https://github.com/pd162/LTB

下载链接

链接失效反馈

官方服务：

资源简介：

LTB提出了13个长尾挑战，全面评估场景文本检测器在真实场景中的能力。基准包括924张精心挑选的图像和2770个具有挑战性的文本实例，这些实例难以检测。

The LTB dataset proposes 13 long-tail challenges to comprehensively evaluate the capabilities of scene text detectors in real-world scenarios. The benchmark includes 924 meticulously selected images and 2770 challenging text instances that are difficult to detect.

创建时间：

2025-05-18

原始信息汇总

数据集概述

基本信息

数据集名称: LTB (Long-Tailed Benchmark for Scene Text Detection)
发布会议: IJCAI 2025
论文标题: The Devil is in Fine-tuning and Long-tailed Problems: A New Benchmark for Scene Text Detection
论文链接: https://arxiv.org/abs/2505.15649
数据集链接: https://huggingface.co/datasets/Tianjiao2001/LTB

数据集内容

图像数量: 924张
文本实例数量: 2770个
特点: 包含13种长尾挑战，用于全面评估场景文本检测器在真实场景中的能力

数据准备

SSL预训练数据

MARIO-LAION-OCR [下载链接]

联合训练数据

ICDAR2013 [下载链接]
ICDAR2015 [下载链接]
COCO-Text [下载链接]
Total-Text [下载链接]
MLT2017 [下载链接]
MLT2019 [下载链接]
ArT [下载链接]
LSVT [下载链接]
TextOCR [下载链接]

引用

bibtex @inproceedings{cao2025devil, title={The Devil is in Fine-tuning and Long-tailed Problems: A New Benchmark for Scene Text Detection}, author={Cao, Tian-Jiao and Lyu, Jia-Hao and Zeng, Wei-Chao and Mu, Wei-Min and Zhou Yu}, booktitle={Proceedings of the Thirty-Fourth International Joint Conference on Artificial Intelligence}, year={2025} }

致谢

基于MAE和MMOCR实现

搜集汇总

数据集介绍

构建方式

LTB数据集作为场景文本检测领域的新型基准测试工具，其构建过程充分考虑了现实场景中的复杂性和多样性。研究团队从真实世界场景中精选了924张具有代表性的图像，并标注了2770个具有挑战性的文本实例，这些实例涵盖了13种长尾分布问题。数据集的构建采用了严格的筛选标准，确保每个文本实例都能有效反映实际应用中的检测难点，包括不同光照条件、字体样式、遮挡情况等干扰因素。

使用方法

研究人员可通过官方渠道下载LTB数据集，并按照提供的评估协议进行实验验证。使用该数据集时，建议结合MMOCR等开源工具链进行模型训练和测试，确保实验过程的可复现性。数据集支持标准的文本检测评估指标，用户可通过配置文件调整参数以适应不同的实验需求。为获得最佳效果，应当注意遵循原始论文中描述的预处理流程和评估方法。

背景与挑战

背景概述

LTB数据集作为IJCAI 2025会议上提出的新型基准测试工具，由Tian-Jiao Cao等学者联合开发，旨在解决场景文本检测领域中的长尾分布问题。该数据集聚焦于现实场景中文本检测的复杂性与多样性，通过精心筛选的924张图像和2770个具有挑战性的文本实例，为研究者提供了全面评估模型性能的平台。其创新性在于系统性地归纳了13类长尾挑战，填补了传统文本检测基准在极端场景覆盖不足的空白，对推动鲁棒性算法发展具有显著意义。

当前挑战

在领域问题层面，LTB直击场景文本检测中因样本分布不均衡导致的模型泛化能力弱化问题，尤其是对模糊、遮挡、艺术字体等罕见但现实存在的文本形态识别困难。数据集构建过程中，研究者面临标注一致性维护与挑战性样本筛选的双重压力，需平衡数据多样性与标注质量的关系。同时，跨数据集融合带来的分布差异与标注标准不统一问题，进一步增加了构建具有统计学意义的长尾基准的复杂度。

常用场景

经典使用场景

在计算机视觉领域，场景文本检测一直是研究热点之一。LTB数据集通过精心设计的924张图像和2770个具有挑战性的文本实例，为研究人员提供了一个全面评估文本检测算法性能的平台。该数据集特别关注长尾分布问题，模拟了真实世界中文本出现的各种复杂场景，成为衡量算法鲁棒性的重要基准。

解决学术问题

LTB数据集针对场景文本检测中的13个长尾挑战，系统性地解决了现有算法在复杂现实场景中的性能瓶颈问题。通过构建包含多样化文本实例的评估基准，该数据集推动了文本检测领域对长尾分布问题的深入研究，为开发更鲁棒的检测算法提供了可靠的数据支撑，填补了该领域系统性评估工具的空白。

实际应用

在实际应用中，LTB数据集的价值体现在提升智能系统对现实场景中文本的识别能力。从自动驾驶中的路牌识别到移动设备上的文档扫描，再到零售场景中的商品标签检测，该数据集训练出的模型能够更好地应对光照变化、遮挡、变形等复杂情况，显著提升了文本检测系统在真实环境中的实用性。

数据集最近研究

LTB