IMPACT
收藏github2024-06-12 更新2024-06-13 收录
下载链接:
https://github.com/hhshomee/designpatent_dataset
下载链接
链接失效反馈官方服务:
资源简介:
IMPACT是一个大规模的集成多模态专利分析和创作数据集,专注于设计专利。该数据集包含从2007年至2022年间由美国专利商标局授予的50万份设计专利,总计361万个图示及其详细说明。
IMPACT is a large-scale integrated multimodal patent analysis and creation dataset, focusing on design patents. The dataset comprises 500,000 design patents granted by the United States Patent and Trademark Office from 2007 to 2022, totaling 3.61 million illustrations and their detailed descriptions.
创建时间:
2024-06-04
原始信息汇总
数据集概述
数据集名称
- IMPACT: 集成多模态专利分析与创作数据集(Integrated Multimodal Patent Analysis and CreaTion Dataset)
数据集规模
- 包含50万件设计专利
- 总计361万张专利图及其详细说明
数据来源
- 数据来自美国专利商标局(USPTO),涵盖2007至2022年间的专利
数据内容
- 每件设计专利包含图示及其详细说明
数据集用途
- 支持专利分析和多模态检索任务
相关工具与模型
- PatentCLIP: 基于CLIP的模型,用于多模态检索任务
- 提供PatentCLIP的训练和验证集下载链接
- 提供PatentCLIP模型的检查点链接
检索性能
- 展示了不同模型在文本-图像检索任务上的性能,包括零样本学习和微调后的结果
数据集样本
- 样本数据可在此链接查看和下载:样本数据链接
搜集汇总
数据集介绍

构建方式
IMPACT数据集的构建基于美国专利商标局(USPTO)自2007年至2022年间授予的50万项设计专利,涵盖了361万张附有详细说明的专利图。该数据集通过整合多模态信息,包括图像和文本,旨在为设计专利的分析与创新提供全面的数据支持。构建过程中,数据集不仅收集了专利图,还提取了与之相关的详细说明,确保每项专利的多维度信息得以完整呈现。
特点
IMPACT数据集的显著特点在于其大规模和多模态性。该数据集包含了超过50万项设计专利,每项专利附有详细的图像和文本描述,为研究者提供了丰富的数据资源。此外,数据集的跨度长达16年,涵盖了广泛的技术发展和设计趋势,使其在时间序列分析和趋势预测方面具有独特的优势。
使用方法
IMPACT数据集的使用方法多样,适用于多种研究任务。研究者可以通过下载数据集的样本数据进行初步探索,或使用提供的训练和验证集进行深入分析。特别地,数据集支持基于PatentCLIP的多模态检索任务,研究者可以通过加载预训练模型进行文本与图像的联合检索。此外,数据集还提供了详细的分类工具和检索结果,便于研究者进行定制化的分析和应用。
背景与挑战
背景概述
IMPACT数据集是一个大规模的多模态专利分析与创作数据集,专注于设计专利。该数据集由美国专利商标局(USPTO)在2007年至2022年间授予的半百万设计专利组成,包含361万张附有详细说明的专利图。IMPACT的创建旨在通过整合图像与文本信息,推动设计专利领域的研究与创新。其主要研究人员包括Homaira Huda Shomee、Zhu Wang、Sathya N. Ravi和Sourav Medya,他们的工作为设计专利的多模态分析提供了新的视角和工具。
当前挑战
IMPACT数据集在构建过程中面临多项挑战。首先,整合来自不同年份和类别的专利数据,确保数据的一致性和完整性是一项复杂任务。其次,多模态数据的处理,特别是图像与文本的联合分析,需要先进的算法和计算资源。此外,专利数据的分类和检索任务也极具挑战性,需要高效的模型和方法来实现精确的文本-图像和图像-文本检索。这些挑战不仅推动了数据集的构建,也为后续研究提供了丰富的探索空间。
常用场景
经典使用场景
IMPACT数据集在设计专利分析领域中具有广泛的应用。其经典使用场景包括多模态检索任务,如文本与图像之间的相互检索。通过结合设计专利的图像和详细描述,研究人员可以开发和优化基于CLIP(Contrastive Language-Image Pretraining)的模型,如PatentCLIP,以实现高效的专利图像和文本匹配。这种应用不仅提升了专利检索的准确性,还为设计专利的自动化分析提供了强有力的工具。
解决学术问题
IMPACT数据集解决了设计专利分析中的多个关键学术问题。首先,它通过提供大规模的多模态数据,促进了图像与文本之间关系的深入研究,特别是在零样本学习和微调模型中的应用。其次,该数据集支持了多模态检索任务的性能评估,为研究者提供了一个标准化的基准。此外,IMPACT还推动了设计专利自动生成和分类技术的发展,为学术界提供了丰富的实验数据和研究方向。
衍生相关工作
IMPACT数据集的发布催生了多项相关研究工作。例如,基于IMPACT的PatentCLIP模型在多模态检索任务中表现优异,推动了图像与文本匹配技术的发展。此外,该数据集还激发了设计专利自动生成和分类的研究,如利用深度学习模型生成专利描述和图像。这些衍生工作不仅扩展了IMPACT的应用范围,还为设计专利领域的技术创新提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



