Total-Text

github2024-05-22 更新2024-05-31 收录

下载链接：

https://github.com/cs-chan/Total-Text-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Total-Text是一个基于英文曲线文本的数据集，包含1555张图像，具有水平、多向和曲线三种不同的文本方向。

Total-Text is an English curve text-based dataset comprising 1555 images, featuring three distinct text orientations: horizontal, multi-directional, and curved.

创建时间：

2017-08-25

原始信息汇总

数据集概述

数据集名称

Total-Text-Dataset

数据集更新历史

2022年4月6日：更新检测排行榜，包括FCE, ABPNet, PCR, CentripetalText & HierText。
2020年4月29日：更新检测排行榜，强调E2E方法。
2020年3月19日：更新测试集的新groundtruth。
2019年9月8日：提供新的训练groundtruth。
2019年9月7日：更新引导注释工具箱。
2019年9月7日：更新baseline，与IJDAR相关。
2019年8月1日：扩展版本，新增baseline和注释工具，被IJDAR接受。
2019年5月30日：重要公告，关于Total-Text与ArT数据集。
2019年4月2日：更新排名表，比较默认与提议的DetEval。
2019年3月31日：更新DetEval.py，支持Python3。
2019年3月14日：更新排名表，包含评估协议信息。
2018年11月26日：包含排名表供参考。
2018年8月24日：新增引导注释工具箱文件夹。
2018年5月15日：添加.txt格式的groundtruth。
2018年5月14日：新增功能，支持Do not care候选过滤。
2018年4月3日：添加像素级groundtruth。
2017年11月4日：添加文本级groundtruth。
2017年10月27日：数据集发布。

数据集新闻

关于测试集新groundtruth的更新说明。
推荐参考SCUT-CTW1500数据集，包含中英文实例。
介绍RRC-ArT挑战，基于Total-Text和SCUT-CTW1500扩展。

重要公告

Total-Text和SCUT-CTW1500已成为ArT数据集的训练集部分。
为保持Total-Text数据集的基准有效性，应从ArT数据集中移除Total-Text的测试集图像。

检测排行榜

列出了多种方法在Total-Text数据集上的表现，包括精度(P)、召回率(R)和F-score。
排行榜包括了不同评估标准下的性能比较。
提供了各方法的发表会议或期刊信息。

搜集汇总

数据集介绍

构建方式

Total-Text数据集的构建始于2017年，其核心目标是为曲线文本检测提供一个全面的基准。该数据集通过精心设计的标注工具，实现了对场景文本图像的细致标注，包括文本级别的标注和像素级别的标注。随着时间的推移，数据集不断更新，引入了新的训练和测试集的地面真值，以及用于指导标注的工具箱，确保了数据集的准确性和实用性。

特点

Total-Text数据集以其独特的曲线文本特性著称，涵盖了多种复杂的文本形状和布局，为研究者提供了一个挑战性的测试平台。此外，数据集还支持‘Do not care’候选过滤功能，进一步增强了其灵活性和实用性。数据集的持续更新和扩展，确保了其在文本检测领域的领先地位和广泛应用。

使用方法

使用Total-Text数据集时，研究者可以利用其提供的多种格式的地面真值，包括文本和像素级别的标注，进行模型训练和评估。数据集还提供了详细的检测排行榜，供研究者参考和比较不同方法的性能。为了确保公平的基准测试，建议在使用数据集时遵循其提供的使用指南和注意事项，特别是在涉及ArT数据集的训练数据时。

背景与挑战

背景概述

Total-Text数据集，由主要研究人员和机构于2017年发布，专注于英语曲线文本的识别与检测。该数据集的创建旨在解决复杂场景中文本检测的难题，特别是那些形状不规则的文本。Total-Text不仅提供了丰富的图像数据，还包含了详细的文本级别和像素级别的标注，为研究者提供了一个全面的基准测试平台。其影响力在于推动了文本检测技术的发展，尤其是在处理任意形状文本方面的突破，成为该领域的重要参考数据集。

当前挑战

Total-Text数据集在构建过程中面临多重挑战。首先，复杂场景中的文本检测本身就是一个技术难题，尤其是曲线文本的识别，需要高精度的算法支持。其次，数据集的标注工作复杂且耗时，确保标注的准确性和一致性是另一大挑战。此外，随着技术的进步，如何保持数据集的更新和与时俱进，以适应新的检测算法和评估标准，也是一个持续的挑战。最后，确保数据集的公平使用，避免因数据泄露导致的评估偏差，也是该数据集管理中需要关注的问题。

常用场景

经典使用场景

Total-Text数据集在自然场景文本检测领域中占据重要地位，其经典使用场景主要集中在曲线文本的检测与识别。该数据集包含了大量具有复杂几何形状的文本实例，如弯曲、倾斜和多方向的文本，为研究者提供了一个理想的平台来测试和改进文本检测算法的鲁棒性和准确性。通过在Total-Text上的实验，研究者可以评估其方法在处理非规则文本时的性能，从而推动文本检测技术的发展。

衍生相关工作

Total-Text数据集的发布催生了一系列相关研究工作，推动了文本检测和识别技术的进步。例如，基于Total-Text的检测算法如CRAFT、TextFuseNet等在多个国际竞赛中取得了优异成绩，展示了其在实际应用中的潜力。此外，Total-Text还与其他数据集如SCUT-CTW1500和ArT结合，形成了更大规模的训练集，进一步促进了文本检测技术的发展和应用。

数据集最近研究