GTDB-Dataset

github2024-04-01 更新2024-05-31 收录

下载链接：

https://github.com/uchidalab/GTDB-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

GTDB数据集包含从科学期刊和教科书收集的文档页面图像，用于促进科学文档OCR的研究。GTDB-1包含31篇数学文章，GTDB-2包含16篇文章，涵盖多种字体和数学符号风格。

The GTDB dataset comprises document page images collected from scientific journals and textbooks, aimed at advancing research in scientific document OCR. GTDB-1 includes 31 mathematical articles, while GTDB-2 contains 16 articles, encompassing a variety of fonts and mathematical symbol styles.

创建时间：

2018-10-31

原始信息汇总

GTDB-Datasets 概述

数据集介绍

GTDB-Datasets 包含两个子数据集：GTDB-1 和 GTDB-2，旨在促进科学文档 OCR 的研究。这些数据集由科学期刊和教科书的页面图像组成，包含多样化的字体和数学符号样式。

数据集统计

数据集	文章数量	页面数量	数学符号数量	普通文本字符数量
GTDB-1	31	544	162,406	646,714
GTDB-2	16	343	115,433	507,412

数据集内容

GTDB-1: 包含31篇数学领域的英文文章，共计544页。
GTDB-2: 包含16篇文章，共计343页。

数据集使用条件

GTDB 数据集根据 CC BY-NC-ND 许可证发布，允许用于科学文档 OCR 系统的研究、开发或测试，非商业用途免费。

数据集注释格式

数据集中的文档页面注释通过 CSV 文件提供，遵循特定的格式，包括页眉、文本、图像、线条和字符数据的记录。每个 CSV 文件对应一篇文章的注释。

数据集文章列表

GTDB-1: 提供31篇文章的详细列表，包括文章标题、来源和链接。
GTDB-2: 提供16篇文章的详细列表，包括文章标题、来源和链接。

搜集汇总

数据集介绍

构建方式

GTDB数据集由GTDB-1和GTDB-2两个子集构成，数据来源于科学期刊和教科书的文档页面图像。GTDB-1包含31篇数学领域的英文文章，GTDB-2则包含16篇文章。这些文章涵盖了多样化的字体和数学符号风格。所有页面图像均以600 dpi的分辨率进行扫描，并手动标注了每个数学符号和普通字符的真实标签。尽管由于版权限制，原始文档图像未包含在数据集中，但提供了原始文档的网页链接，供用户获取相关图像。

特点

GTDB数据集的特点在于其丰富的数学符号和文本字符标注，GTDB-1包含162,406个数学符号和646,714个普通字符，GTDB-2则包含115,433个数学符号和507,412个普通字符。数据集中的文章涵盖了多种数学领域，且标注格式详细，包括字符的边界框坐标、文本模式、链接标签等信息。这些标注为OCR系统的训练和评估提供了高质量的基础数据。

使用方法

GTDB数据集的使用方法包括下载标注的CSV文件，并通过提供的网页链接获取原始文档图像。每个CSV文件对应一篇文章的页面标注，标注格式包括页面信息、文本行、字符数据等。用户可以根据标注数据训练OCR模型，特别是针对数学表达式的识别。数据集适用于非商业用途的OCR系统研究、开发和测试，使用时需遵循CC BY-NC-ND许可协议。

背景与挑战

背景概述

GTDB数据集由日本九州大学的Masakazu Suzuki教授及其团队创建，旨在推动科学文档光学字符识别（OCR）领域的研究。该数据集包含GTDB-1和GTDB-2两个子集，分别收录了31篇和16篇来自数学领域的科学期刊和教科书文章。这些文章涵盖了多样化的字体和数学符号风格，且每篇文章的页面图像均以600 dpi的高分辨率扫描，并附有手动标注的数学符号和普通字符的真实标签。GTDB数据集的发布为科学文档的OCR研究提供了高质量的数据支持，尤其在数学表达式识别方面具有重要的参考价值。

当前挑战

GTDB数据集在构建和应用过程中面临多重挑战。首先，科学文档中的数学符号和表达式具有复杂的结构和多样的表现形式，如何准确识别和标注这些符号成为一大难题。其次，由于版权限制，数据集无法直接提供原始文档图像，用户需要通过外部链接获取，这增加了数据使用的复杂性。此外，手动标注过程耗时且容易出错，确保标注的准确性和一致性是数据集构建中的另一大挑战。这些因素共同影响了数据集的完整性和易用性，为相关研究带来了额外的技术难度。

常用场景

经典使用场景

GTDB数据集在光学字符识别（OCR）领域具有广泛的应用，尤其是在科学文档的数学表达式识别方面。该数据集通过提供包含大量数学符号和普通文本字符的高分辨率文档图像，为研究者提供了一个理想的实验平台。其经典使用场景包括训练和评估OCR模型，特别是针对复杂数学表达式的识别任务。通过GTDB数据集，研究者能够深入探索如何提高OCR系统在处理科学文档时的准确性和鲁棒性。

解决学术问题

GTDB数据集解决了科学文档OCR研究中的关键问题，尤其是在数学表达式识别方面。科学文档通常包含复杂的数学符号和公式，传统的OCR系统在处理这些内容时往往表现不佳。GTDB数据集通过提供精确的数学符号和文本字符的标注，帮助研究者开发出能够准确识别和解析数学表达式的OCR模型。这不仅推动了OCR技术的发展，还为科学文档的数字化和自动化处理提供了重要支持。

衍生相关工作

GTDB数据集衍生了许多经典的研究工作，尤其是在OCR和数学表达式识别领域。例如，基于该数据集的研究开发了U-Net模型，用于检测科学文档图像中的数学表达式。这些工作不仅验证了GTDB数据集的有效性，还推动了相关技术的发展。此外，GTDB数据集还被用于评估和改进其他OCR算法，如基于深度学习的字符识别模型。这些研究进一步拓展了GTDB数据集的应用范围，并为科学文档OCR领域的持续创新提供了动力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集