Total-Text|文本识别数据集|方向检测数据集

github2024-05-22 更新2024-05-31 收录

文本识别

方向检测

下载链接：

https://github.com/cs-chan/Total-Text-Dataset

下载链接

链接失效反馈

资源简介：

Total-Text是一个基于英文曲线文本的数据集，包含1555张图像，具有水平、多向和曲线三种不同的文本方向。

Total-Text is an English curve text-based dataset comprising 1555 images, featuring three distinct text orientations: horizontal, multi-directional, and curved.

创建时间：

2017-08-25

原始信息汇总

数据集概述

数据集名称

Total-Text-Dataset

数据集更新历史

2022年4月6日：更新检测排行榜，包括FCE, ABPNet, PCR, CentripetalText & HierText。
2020年4月29日：更新检测排行榜，强调E2E方法。
2020年3月19日：更新测试集的新groundtruth。
2019年9月8日：提供新的训练groundtruth。
2019年9月7日：更新引导注释工具箱。
2019年9月7日：更新baseline，与IJDAR相关。
2019年8月1日：扩展版本，新增baseline和注释工具，被IJDAR接受。
2019年5月30日：重要公告，关于Total-Text与ArT数据集。
2019年4月2日：更新排名表，比较默认与提议的DetEval。
2019年3月31日：更新DetEval.py，支持Python3。
2019年3月14日：更新排名表，包含评估协议信息。
2018年11月26日：包含排名表供参考。
2018年8月24日：新增引导注释工具箱文件夹。
2018年5月15日：添加.txt格式的groundtruth。
2018年5月14日：新增功能，支持Do not care候选过滤。
2018年4月3日：添加像素级groundtruth。
2017年11月4日：添加文本级groundtruth。
2017年10月27日：数据集发布。

数据集新闻

关于测试集新groundtruth的更新说明。
推荐参考SCUT-CTW1500数据集，包含中英文实例。
介绍RRC-ArT挑战，基于Total-Text和SCUT-CTW1500扩展。

重要公告

Total-Text和SCUT-CTW1500已成为ArT数据集的训练集部分。
为保持Total-Text数据集的基准有效性，应从ArT数据集中移除Total-Text的测试集图像。

检测排行榜

列出了多种方法在Total-Text数据集上的表现，包括精度(P)、召回率(R)和F-score。
排行榜包括了不同评估标准下的性能比较。
提供了各方法的发表会议或期刊信息。

AI搜集汇总

数据集介绍

构建方式

Total-Text数据集的构建始于2017年，其核心目标是为曲线文本检测提供一个全面的基准。该数据集通过精心设计的标注工具，实现了对场景文本图像的细致标注，包括文本级别的标注和像素级别的标注。随着时间的推移，数据集不断更新，引入了新的训练和测试集的地面真值，以及用于指导标注的工具箱，确保了数据集的准确性和实用性。

特点

Total-Text数据集以其独特的曲线文本特性著称，涵盖了多种复杂的文本形状和布局，为研究者提供了一个挑战性的测试平台。此外，数据集还支持‘Do not care’候选过滤功能，进一步增强了其灵活性和实用性。数据集的持续更新和扩展，确保了其在文本检测领域的领先地位和广泛应用。

使用方法

使用Total-Text数据集时，研究者可以利用其提供的多种格式的地面真值，包括文本和像素级别的标注，进行模型训练和评估。数据集还提供了详细的检测排行榜，供研究者参考和比较不同方法的性能。为了确保公平的基准测试，建议在使用数据集时遵循其提供的使用指南和注意事项，特别是在涉及ArT数据集的训练数据时。

背景与挑战

背景概述

Total-Text数据集，由主要研究人员和机构于2017年发布，专注于英语曲线文本的识别与检测。该数据集的创建旨在解决复杂场景中文本检测的难题，特别是那些形状不规则的文本。Total-Text不仅提供了丰富的图像数据，还包含了详细的文本级别和像素级别的标注，为研究者提供了一个全面的基准测试平台。其影响力在于推动了文本检测技术的发展，尤其是在处理任意形状文本方面的突破，成为该领域的重要参考数据集。

当前挑战

Total-Text数据集在构建过程中面临多重挑战。首先，复杂场景中的文本检测本身就是一个技术难题，尤其是曲线文本的识别，需要高精度的算法支持。其次，数据集的标注工作复杂且耗时，确保标注的准确性和一致性是另一大挑战。此外，随着技术的进步，如何保持数据集的更新和与时俱进，以适应新的检测算法和评估标准，也是一个持续的挑战。最后，确保数据集的公平使用，避免因数据泄露导致的评估偏差，也是该数据集管理中需要关注的问题。

常用场景

经典使用场景

Total-Text数据集在自然场景文本检测领域中占据重要地位，其经典使用场景主要集中在曲线文本的检测与识别。该数据集包含了大量具有复杂几何形状的文本实例，如弯曲、倾斜和多方向的文本，为研究者提供了一个理想的平台来测试和改进文本检测算法的鲁棒性和准确性。通过在Total-Text上的实验，研究者可以评估其方法在处理非规则文本时的性能，从而推动文本检测技术的发展。

衍生相关工作

Total-Text数据集的发布催生了一系列相关研究工作，推动了文本检测和识别技术的进步。例如，基于Total-Text的检测算法如CRAFT、TextFuseNet等在多个国际竞赛中取得了优异成绩，展示了其在实际应用中的潜力。此外，Total-Text还与其他数据集如SCUT-CTW1500和ArT结合，形成了更大规模的训练集，进一步促进了文本检测技术的发展和应用。

数据集最近研究

最新研究方向

在文本检测与识别领域，Total-Text数据集作为曲线文本检测的重要基准，近期研究主要集中在提升检测算法的精度和效率。最新的研究如CentripetalText、ABPNet和PCR等，通过引入新的网络架构和优化策略，显著提高了在Total-Text上的检测性能。此外，随着端到端（E2E）方法的兴起，如TextFuseNet和HierText，研究者们致力于将文本检测与识别一体化，以实现更高的整体性能。这些进展不仅推动了曲线文本检测技术的发展，也为实际应用中的文本识别任务提供了更强大的工具。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

btc

该数据集可能包含金融市场交易数据，具体包括时间戳、开盘价、最高价、最低价、收盘价和交易量等信息。数据集分为训练集，包含2465个样本，总大小为175324字节。

huggingface 收录

中国高分辨率高质量PM2.5数据集（2000-2023）

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集（ChinaHighAirPollutants, CHAP）中PM2.5数据集。该数据集利用人工智能技术，使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值，结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92，均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区，空间分辨率为1 km，时间分辨率为日、月、年，单位为µg/m3。注意：该数据集持续更新，如需要更多数据，请发邮件联系作者（weijing_rs@163.com; weijing@umd.edu）。数据文件中包含NC转GeoTiff的四种代码（Python、Matlab、IDL和R语言）nc2geotiff codes。

国家青藏高原科学数据中心收录

中国区域地面气象要素驱动数据集 v2.0（1951-2020）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 70 年（1951~2020 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中，计划于 2025 年上半年发布，从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录