ICDAR 2017|文档分析数据集|场景文本识别数据集

OpenDataLab2025-04-05 更新2024-05-09 收录

文档分析

场景文本识别

下载链接：

https://opendatalab.org.cn/OpenDataLab/ICDAR_2017

下载链接

链接失效反馈

资源简介：

ICDAR2017 是用于场景文本检测的数据集。

提供机构：

OpenDataLab

创建时间：

2022-05-23

AI搜集汇总

数据集介绍

构建方式

ICDAR 2017数据集的构建基于国际文档分析与识别会议（ICDAR）的年度竞赛需求，旨在为文本检测与识别任务提供一个标准化的评估平台。该数据集通过收集和标注大量真实世界中的文档图像，涵盖了多种语言和字体风格，确保了数据的多样性和复杂性。图像来源包括扫描文档、自然场景图像以及手写文本，经过专业团队的精细标注，形成了高质量的文本区域标注数据。

特点

ICDAR 2017数据集以其高度的多样性和复杂性著称，包含了多种语言、字体和书写风格的文本，适用于评估文本检测与识别算法的鲁棒性和泛化能力。此外，数据集中的图像分辨率和光照条件各异，增加了模型的适应性挑战。数据集还提供了详细的标注信息，包括文本区域的位置、内容以及对应的语言类型，便于研究人员进行深入分析和模型训练。

使用方法

ICDAR 2017数据集主要用于文本检测与识别领域的研究和算法评估。研究人员可以通过该数据集训练和验证其文本检测与识别模型，评估模型在不同语言和复杂环境下的表现。使用时，建议将数据集划分为训练集和测试集，确保模型的泛化能力。此外，数据集的详细标注信息可用于开发和测试更复杂的文本分析算法，如多语言文本识别和手写文本处理。

背景与挑战

背景概述

ICDAR 2017数据集，作为国际文档分析与识别会议（ICDAR）系列的一部分，由全球顶尖的研究机构和学者共同构建。该数据集聚焦于复杂场景下的文本识别问题，旨在推动光学字符识别（OCR）技术的发展。ICDAR 2017的创建不仅为学术界提供了一个标准化的评估平台，还促进了多语言和多风格文本识别算法的研究。其核心研究问题包括在不同光照条件、字体类型和背景干扰下，如何实现高精度的文本检测与识别。这一数据集的发布，极大地推动了OCR技术在实际应用中的进步，特别是在自动化文档处理和智能监控系统中的应用。

当前挑战

ICDAR 2017数据集在构建和应用过程中面临多项挑战。首先，数据集需要涵盖广泛的文本样式和语言，以确保算法的普适性和鲁棒性。其次，复杂场景下的文本识别，如低分辨率图像、模糊文本和多语言混合文本，对算法的精度和速度提出了高要求。此外，数据集的标注过程复杂且耗时，需要高精度的手动标注和校验，以保证数据质量。最后，如何有效利用该数据集进行算法训练和评估，以提升实际应用中的性能，也是当前研究的重要课题。这些挑战不仅推动了OCR技术的创新，也为相关领域的研究提供了丰富的实验数据和理论支持。

发展历史

创建时间与更新

ICDAR 2017数据集创建于2017年，作为国际文档分析与识别会议（ICDAR）的一部分，该数据集在同年发布，旨在推动文本识别和文档分析领域的研究进展。

重要里程碑

ICDAR 2017数据集的发布标志着文本识别技术的一个重要里程碑。该数据集包含了多种语言和复杂背景下的文本图像，极大地丰富了研究样本的多样性。此外，ICDAR 2017还引入了新的评估指标，如文本定位和识别的准确性，这些指标成为后续研究的重要参考。数据集的发布不仅促进了学术界的研究，也为工业界的应用提供了坚实的基础。

当前发展情况

当前，ICDAR 2017数据集已成为文本识别和文档分析领域的重要基准。许多最新的研究论文和算法都以该数据集作为评估标准，展示了其在推动技术进步方面的关键作用。随着深度学习技术的不断发展，ICDAR 2017数据集的应用范围也在不断扩大，从简单的文本识别到复杂的场景文本理解，其影响力持续增强。此外，该数据集的成功也激励了更多相关数据集的创建，进一步丰富了该领域的研究资源。

发展历程

ICDAR 2017数据集首次发布，作为国际文档分析与识别会议（ICDAR）的一部分，该数据集主要用于文本检测和识别任务，包含多种语言和复杂场景的文本图像。
2017年
ICDAR 2017数据集在多个学术论文中被引用和应用，成为文本识别领域的重要基准数据集之一。
2018年
随着深度学习技术的发展，ICDAR 2017数据集被广泛用于训练和评估先进的文本检测和识别模型，推动了相关技术的进步。
2019年
ICDAR 2017数据集的应用范围进一步扩大，不仅在学术界，也在工业界得到了广泛应用，特别是在自动化文档处理和智能识别系统中。
2020年
ICDAR 2017数据集继续作为文本识别领域的重要参考，其数据质量和多样性得到了广泛认可，为后续研究提供了坚实的基础。
2021年

常用场景

经典使用场景

在自然场景文本识别领域，ICDAR 2017数据集以其丰富的图像样本和多样的文本类型成为研究者们的重要工具。该数据集广泛应用于文本检测与识别算法的开发与评估，特别是在复杂背景、多角度和不同光照条件下，如何准确识别和提取文本信息成为研究的核心问题。通过使用ICDAR 2017，研究者们能够验证和优化其算法在实际应用中的表现，从而推动该领域技术的发展。

实际应用

在实际应用中，ICDAR 2017数据集被广泛用于开发和优化各种文本识别系统，如自动驾驶中的路标识别、文档数字化处理以及智能监控系统中的实时文本提取。这些应用场景要求系统能够在复杂和动态的环境中高效、准确地识别文本，而ICDAR 2017提供的多样化数据样本为这些系统的训练和测试提供了坚实的基础。通过使用该数据集，开发者能够确保其产品在实际应用中的高可靠性和性能。

衍生相关工作

基于ICDAR 2017数据集，许多后续研究工作得以展开，推动了自然场景文本识别技术的进一步发展。例如，研究者们提出了多种改进的文本检测与识别算法，如基于深度学习的端到端文本识别模型，这些模型在ICDAR 2017上的表现显著优于传统方法。此外，该数据集还激发了关于数据增强和模型泛化能力的研究，促进了文本识别技术在不同语言和文化背景下的应用。这些衍生工作不仅丰富了学术研究，也为实际应用提供了更多可能性。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CosyVoice 2

CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集，旨在通过大规模多语言数据集训练，实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率，并结合预训练的大型语言模型作为骨干，支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域，旨在解决高延迟和低自然度的问题，提供接近人类水平的语音合成质量。

arXiv 收录

VoxBox

VoxBox是一个大规模语音语料库，由多样化的开源数据集构建而成，用于训练文本到语音（TTS）系统。

github 收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集，包含超过1.84亿条推文，覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档，可以完全重新构建，包括推文元数据且无缺失推文。数据集内容丰富，涵盖多种语言，主要用于情感分析和文本分类等任务。创建过程中，研究团队精心筛选了表情符号和表情，确保数据集的质量和多样性。该数据集的应用领域广泛，旨在解决社交媒体情感表达的长期变化问题，特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

PlantVillage

在这个数据集中，39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录

中国区域地面气象要素驱动数据集 v2.0（1951-2020）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 70 年（1951~2020 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中，计划于 2025 年上半年发布，从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心收录