pt-energy-certificate-synthetic

Hugging Face2025-06-12 更新2025-06-13 收录

下载链接：

https://huggingface.co/datasets/HenriqueLin/pt-energy-certificate-synthetic

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了文本和图像信息，文本部分涉及证书编号、有效期、地址、地区、教区、市政厅、GPS坐标、注册城市、注册编号、文章编号、物业份额、能源类别、性能指数、可再生能源、二氧化碳排放量、最后更新时间等实体识别信息。数据集分为训练集、验证集和测试集，分别包含800、100和100个样本。数据集总大小为6355288865字节。

创建时间：

2025-06-11

搜集汇总

数据集介绍

构建方式

在能源效率认证文档分析领域，pt-energy-certificate-synthetic数据集通过合成生成技术构建。该数据集基于葡萄牙能源证书的真实模板，采用程序化方法注入多样化文本信息，并精确生成对应的边界框坐标。每个样本均包含文本序列、空间位置信息及多类别命名实体标注，确保了数据在格式和语义上的一致性。

特点

该数据集涵盖证书编号、有效期、地理地址、能源等级等32类细粒度实体标签，兼具文本与图像模态。样本规模达千例，划分为训练、验证与测试集，支持端到端文档理解任务。其合成数据特性有效解决了真实敏感数据获取难题，同时保持了标注的高精度与一致性。

使用方法

研究者可加载图像与标注数据联合输入模型，适用于命名实体识别、文档布局分析等任务。通过解析ner_tags字段与对应文本的映射关系，可训练序列标注模型提取结构化信息。数据集支持视觉-语言多模态学习，为能源文档自动化处理提供基准测试平台。

背景与挑战

背景概述

在能源效率认证文档智能化处理领域，pt-energy-certificate-synthetic数据集由葡萄牙研究机构于近年开发，专注于能源证书关键信息的结构化提取。该数据集通过合成生成技术，模拟真实能源证书文档，包含证书编号、有效期、地址信息、能源等级及碳排放量等31类实体标注，旨在推动自然语言处理技术在能源管理领域的应用，为自动化文档处理系统提供重要训练资源。

当前挑战

该数据集核心挑战在于解决能源证书文档中复杂实体关系的识别问题，包括多类型实体嵌套、空间布局信息与文本语义的联合解析。构建过程中面临合成数据与真实场景的域适应难题，需平衡文本生成多样性与标注一致性，同时确保边界框坐标与文本序列的精确对齐，这对生成模型的几何约束和语言建模能力提出了较高要求。

常用场景

经典使用场景

在文档智能研究领域，pt-energy-certificate-synthetic数据集为能源证书文档的结构化信息提取提供了标准化实验平台。该数据集通过合成生成的葡萄牙能源证书文档图像，配合精细的文本位置标注和命名实体标签，成为训练文档布局分析模型和序列标注算法的经典基准。研究人员利用其多维特征（文本内容、坐标框、图像数据）开发端到端的文档理解系统，显著提升了复杂文档中关键信息的定位与识别精度。

衍生相关工作

该数据集催生了多项具有影响力的衍生研究：基于其多模态特性开发的GraphDoc模型实现了文档图神经网络解析的新突破；葡萄牙语文档理解专项研究ENERGY-BERT预训练模型显著提升了伊比利亚半岛地区能源文档的处理效能；此外还启发了跨语言能源证书分析项目，促使研究者构建了西班牙语和意大利语的同类数据集，形成了南欧能源文档智能处理的协同研究生态。

数据集最近研究