Total-Text-Dataset
收藏github2018-07-19 更新2024-05-31 收录
下载链接:
https://github.com/fireae/Total-Text-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
为了促进新的文本检测研究,我们引入了Total-Text数据集,这是一个比现有文本数据集更全面的数据集。Total-Text包含1555张图像,具有超过3种不同的文本方向:水平、多向和曲线,是独一无二的。
To facilitate novel research in text detection, we introduce the Total-Text dataset, a more comprehensive collection than existing text datasets. Total-Text comprises 1,555 images featuring more than three distinct text orientations: horizontal, multi-directional, and curved, making it uniquely versatile.
创建时间:
2018-06-21
原始信息汇总
Total-Text-Dataset 概述
数据集更新历史
- 2018年5月15日:新增.txt格式的groundtruth。
- 2018年5月14日:新增功能,支持Do not care候选过滤。
- 2018年4月3日:添加像素级groundtruth。
- 2017年11月4日:添加文本级groundtruth。
- 2017年10月27日:首次发布。
数据集描述
Total-Text 数据集包含1555张图像,支持三种不同的文本方向:水平、多向和曲线,旨在促进文本检测研究。
引用信息
若使用此数据集于研究中,请引用:
@inproceedings{CK2017, author = {Chee Kheng Ch’ng and Chee Seng Chan}, title = {Total-Text: A Comprehensive Dataset for Scene Text Detection and Recognition}, booktitle = {14th IAPR International Conference on Document Analysis and Recognition {ICDAR}}, pages = {935--942}, year = {2017}, doi = {10.1109/ICDAR.2017.157}, }
搜集汇总
数据集介绍

构建方式
Total-Text-Dataset的构建旨在推进文本检测研究之需,该数据集汇集了1555张图片,涵盖了横排、多方向及曲线三种不同的文本排列方式,旨在提供一种更为全面的文本数据集,满足多样化的研究需求。
特点
本数据集以其全面性著称,不仅包含了像素级和文本级的基准数据,还提供了对'不关心'候选区域的过滤功能,使得研究者在进行文本检测时能更加专注于关键区域。此外,数据集的开放性使其成为文本检测和识别领域的研究瑰宝。
使用方法
用户在使用Total-Text-Dataset时,可以依据BSD-3许可协议,自由地用于学术目的。数据集以图片和对应的基准数据文件形式提供,用户可以通过python脚本进行'不关心'区域的过滤等操作,以便更高效地进行文本检测相关研究。
背景与挑战
背景概述
Total-Text-Dataset是一款为了推动文本检测研究而构建的全面性数据集,其创建于2017年10月27日,由Chee Kheng Ch’ng和Chee Seng Chan主导,隶属于马来亚大学图像与信号处理中心。该数据集因其包含横排、多方向和曲线文本的三种不同文本方向,且相较于现有文本数据集更具综合性,因此在场景文本检测与识别研究领域产生了显著影响。
当前挑战
该数据集在构建过程中主要面临两大挑战:一是如何有效捕捉并区分不同文本方向的文本,二是如何提供像素级和文本级的详细标注以辅助研究。同时,在解决领域问题,即场景文本检测与识别方面,Total-Text-Dataset需要克服文本在复杂背景、不同字体和尺寸下的识别难题,以及实际应用中的实时处理挑战。
常用场景
经典使用场景
在文本检测研究领域,Total-Text-Dataset以其全面的文本方向和丰富的图像样本,成为了一项不可或缺的资源。该数据集包含水平、多方向和曲线文本的三种不同类型,使其在训练和评估文本检测模型时具有广泛的应用。
衍生相关工作
基于Total-Text-Dataset的研究已经衍生出许多相关工作,包括但不限于文本检测模型的改进、识别算法的优化以及跨语言文本检测的研究,为文本识别领域的发展贡献了重要的研究成果。
数据集最近研究
最新研究方向
在文本检测研究领域,Total-Text数据集以其全面的文本方向覆盖——水平、多方向及曲线文本,为学术研究提供了宝贵的资源。近期研究方向主要围绕该数据集展开了像素级和文本级标注的准确性提升工作,以及'不关心'候选者过滤特性的优化,旨在提高场景文本检测与识别的效率。这些研究不仅推动了文本检测技术的进步,也为智能文档分析、图像理解等应用领域的发展贡献了力量。
以上内容由遇见数据集搜集并总结生成



