Synthetic handwritten Groningen Meaning Bank (GMB) dataset

github2022-06-27 更新2024-05-31 收录

下载链接：

https://github.com/omni-us/research-dataset-sGMB

下载链接

链接失效反馈

官方服务：

资源简介：

用于全页文本和实体识别研究的合成手写Groningen Meaning Bank (GMB)数据集。数据使用https://github.com/manucarbonell/handwritten-document-synthesizer工具生成，数据来源于https://gmb.let.rug.nl/。

本数据集专为全页文本与实体识别研究而设计，系由合成手写格罗宁根意义库（Groningen Meaning Bank，简称GMB）构成。数据通过访问https://github.com/manucarbonell/handwritten-document-synthesizer工具生成，其原始数据来源可追溯至https://gmb.let.rug.nl/。

创建时间：

2020-03-21

原始信息汇总

Synthetic handwritten Groningen Meaning Bank (GMB) dataset

数据集概述

目的: 用于研究全页文本和实体识别。
数据来源: 使用工具handwritten-document-synthesizer生成，数据源自Groningen Meaning Bank。

引用信息

引用要求: 若在研究中使用此数据集，请引用数据来源The Groningen Meaning Bank及论文:
- Manuel Carbonell, Alicia Fornés, Mauricio Villegas, and Josep Lladós. "A neural model for text localization, transcription and named entity recognition in full pages." Pattern Recognition Letters 136 (2020): 219-227.

数据集使用工具

可视化工具: 使用nw-page-editor查看xml文件。
增强可视化: 通过加载本仓库中的css文件nw-page-editor-entities.css以获得更好的实体标注可视化效果。

搜集汇总

数据集介绍

构建方式

Synthetic handwritten Groningen Meaning Bank (GMB) 数据集是通过合成手写页面生成的，旨在支持全页文本和实体识别的研究。该数据集利用https://github.com/manucarbonell/handwritten-document-synthesizer工具生成，数据来源于Groningen Meaning Bank (GMB) 项目。生成过程中，工具模拟了手写文本的自然形态，确保了数据的多样性和真实性。

特点

该数据集的特点在于其高度仿真的手写文本生成技术，能够模拟真实手写文档的多样性和复杂性。数据集不仅包含文本内容，还标注了实体信息，适用于文本定位、转录和命名实体识别等任务。此外，数据集的设计充分考虑了研究需求，提供了丰富的标注信息，便于进行深入的文本分析和模型训练。

使用方法

使用该数据集时，研究人员可以通过https://github.com/mauvilsa/nw-page-editor工具可视化XML文件，以便更好地理解和分析数据。为了获得更清晰的实体标注可视化效果，可以使用仓库中提供的CSS文件，通过命令行加载CSS文件进行可视化。该数据集的使用方法简单直观，适合用于各类文本识别和实体标注的研究项目。

背景与挑战

背景概述

Synthetic handwritten Groningen Meaning Bank (GMB) 数据集是一个为全页文本和实体识别研究而设计的合成手写页面数据集。该数据集由Manuel Carbonell、Alicia Fornés、Mauricio Villegas和Josep Lladós等研究人员于2020年开发，旨在解决手写文档中的文本定位、转录和命名实体识别问题。数据集的生成工具基于Groningen Meaning Bank的语料库，并结合了手写文档合成技术。该数据集的研究成果发表在《Pattern Recognition Letters》期刊上，为手写文档分析领域提供了重要的实验数据支持。

当前挑战

该数据集面临的挑战主要集中在两个方面。首先，手写文本的多样性和复杂性使得全页文本识别和实体提取变得极具挑战性，尤其是在处理不同书写风格和布局的情况下。其次，数据集的构建过程中，如何确保合成手写文档的真实性和多样性也是一个关键问题。尽管使用了先进的合成工具，但模拟真实手写文档的细节仍然需要大量的优化和验证工作。此外，数据集的标注和可视化工具的使用也需要进一步改进，以提高研究人员的使用效率和体验。

常用场景

经典使用场景

Synthetic handwritten Groningen Meaning Bank (GMB) 数据集主要用于全页文本和实体识别的研究。通过合成生成的手写页面，该数据集为研究人员提供了一个高度可控的环境，用于开发和测试文本定位、转录以及命名实体识别（NER）的算法。这种合成数据的使用，使得研究者能够在不受真实数据采集限制的情况下，进行大规模的实验和模型训练。

衍生相关工作

基于 Synthetic handwritten GMB 数据集，许多经典研究工作得以展开。例如，Manuel Carbonell 等人提出的神经网络模型，结合该数据集实现了全页文本的定位、转录和命名实体识别。此外，该数据集还催生了一系列关于手写文本合成和识别的算法改进研究，推动了文档分析领域的技术进步。这些工作为后续的研究提供了重要的理论基础和技术支持。

数据集最近研究