danaaubakirova/patfig
收藏Hugging Face2024-07-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/danaaubakirova/patfig
下载链接
链接失效反馈官方服务:
资源简介:
PatFig数据集是一个精心策划的集合,包含来自2020年7,000多个欧洲专利申请的超过18,000个专利图像。该数据集旨在为图像字幕、抽象推理、专利分析和自动化文档处理的研究和应用提供全面资源。数据集包括技术图纸、框图、流程图、图表和灰度照片等图像文件,每个图像都配有短长字幕、参考数字、对应术语和最小权利要求集,按照国际专利分类系统分类。
PatFig数据集是一个精心策划的集合,包含来自2020年7,000多个欧洲专利申请的超过18,000个专利图像。该数据集旨在为图像字幕、抽象推理、专利分析和自动化文档处理的研究和应用提供全面资源。数据集包括技术图纸、框图、流程图、图表和灰度照片等图像文件,每个图像都配有短长字幕、参考数字、对应术语和最小权利要求集,按照国际专利分类系统分类。
提供机构:
danaaubakirova
原始信息汇总
PatFig 数据集
概述
PatFig 数据集是一个精心策划的集合,包含超过 18,000 张来自 7,000 多项欧洲专利申请的专利图像,涵盖 2020 年。该数据集旨在为图像标注、抽象推理、专利分析和自动化文档处理等研究提供全面的资源。其主要目标是推动视觉情境语言理解的研究,实现对视觉和文本数据的更全面理解。
数据集描述
结构
- 图像文件:包括技术图纸、框图、流程图、图表和灰度照片。
- 标注:每张图都附有简短和详细的描述其内容和上下文的标注。
- 参考编号和术语:图中的关键组件通过参考编号与其描述相链接。
- 最小集的声明:总结每个图中元素间交互的声明句子。
- 元数据:包括图像名称、出版号、标题、图标识符等。详细字段描述可在数据集文档中找到。
分类
数据集根据国际专利分类(IPC)系统进行分类,确保技术领域的多样化代表性。
使用
PatFig 数据集适用于专利图像分析、文档图像处理、视觉问答任务和技术环境中的图像标注。鼓励用户探索相关领域的创新应用。
挑战和考虑
用户应注意解释复合图等挑战。PatFig 是使用高性能机器学习和深度学习方法自动构建的,因此数据可能包含噪声。
许可和使用指南
该数据集在 Creative Commons Attribution-NonCommercial 2.0 Generic (CC BY-NC 2.0) 许可下发布,仅限非商业用途,用户必须遵守许可条款。



