five

USPTO Artificial Intelligence Patent Dataset

收藏
github2021-12-11 更新2024-05-31 收录
下载链接:
https://github.com/fabiomorooka/patent-corpus2question
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多种专利类型,通过过滤提取了与8个AI主题最相关的专利,并仅包括2010至2020年间发布的专利。数据集还通过Python库请求Google专利引擎以获取专利摘要,并提供了完整的下载链接。

This dataset encompasses a variety of patent types, from which patents most relevant to eight AI topics have been filtered and extracted, including only those published between 2010 and 2020. The dataset also utilizes a Python library to request patent abstracts from the Google Patent Engine, providing complete download links.
创建时间:
2021-11-09
原始信息汇总

数据集概述

数据集名称

patent-corpus2question

数据集来源

数据集准备

  • 通过过滤提取与8个AI主题相关的专利,包括:
    1. 知识处理
    2. 语音
    3. AI硬件
    4. 进化计算
    5. 自然语言处理
    6. 机器学习
    7. 计算机视觉
    8. 规划/控制
  • 仅包含2010年至2020年间发布的专利。
  • 原始数据集中的document_id不完整,需调整以适配Python Google patents API

数据集内容补充

  • 由于原始数据集缺少摘要信息,使用Python库向Google Patent Engine请求并恢复了专利摘要。

数据集下载

  • 完整数据集可从Google Drive下载,需使用Unicamp邮箱登录。

数据集处理

数据集访问限制

  • 数据集访问受限,仅限Unicamp学生或教师,并需访问项目云存储以获取完整文件和配置。
搜集汇总
数据集介绍
main_image_url
构建方式
USPTO Artificial Intelligence Patent Dataset的构建基于从美国专利商标局(USPTO)网站下载的人工智能专利数据集。通过对原始数据集进行筛选,提取了与八个特定人工智能主题相关的专利,包括知识处理、语音、AI硬件、进化计算、自然语言处理、机器学习、计算机视觉和规划/控制。此外,仅保留了2010年至2020年间发布的专利,并使用Python库从Google专利引擎中提取了专利摘要,以补充原始数据集的不足。
使用方法
用户可以通过访问Google Drive链接下载完整的数据集,需使用Unicamp邮箱登录。数据集的预处理和分析可以通过提供的Google Colab Notebook进行,这些Notebook展示了如何提取和分析专利摘要中的主题信息,并与arXiv研究结果进行比较。用户需具备访问项目云存储的权限,以获取完整的文件和配置。
背景与挑战
背景概述
USPTO Artificial Intelligence Patent Dataset是由美国专利商标局(USPTO)发布的一个专门针对人工智能领域的专利数据集。该数据集的构建旨在深入研究人工智能技术在专利领域的应用与发展,涵盖了从2010年至2020年间的专利数据。主要研究人员和机构包括巴西坎皮纳斯大学(Unicamp)的研究团队,他们通过过滤和提取与人工智能相关的专利,特别是涉及知识处理、语音、AI硬件、进化计算、自然语言处理、机器学习、计算机视觉和规划/控制等八个核心主题的专利,进一步丰富了数据集的内容。该数据集的创建不仅为人工智能领域的研究提供了宝贵的资源,还为专利分析和预测提供了新的视角,对推动相关领域的技术进步具有重要意义。
当前挑战
USPTO Artificial Intelligence Patent Dataset在构建过程中面临了多项挑战。首先,原始数据集包含多种类型的专利,研究人员需要通过复杂的过滤过程,提取与人工智能相关的专利,这一过程涉及对大量数据的分类和筛选。其次,原始数据集缺乏专利摘要信息,这使得研究人员必须通过Python库向Google专利引擎发出请求,以获取并补充这些关键信息。此外,数据集的完整性问题也带来了挑战,特别是专利ID的格式问题,需要进行额外的处理以确保与Python Google专利API的兼容性。最后,数据集的访问权限限制了其公开性,仅限于Unicamp的学生和教师,这在一定程度上限制了数据集的广泛应用和进一步研究。
常用场景
经典使用场景
USPTO Artificial Intelligence Patent Dataset 主要用于分析和挖掘人工智能领域的专利信息,特别是针对专利摘要中的主题进行深入研究。通过该数据集,研究者可以探索不同AI子领域(如自然语言处理、机器学习等)的专利分布情况,从而揭示技术发展趋势和创新热点。
解决学术问题
该数据集解决了人工智能领域专利信息的系统性分析问题,填补了现有研究中对专利摘要数据利用的空白。通过提取和分析专利摘要,研究者能够更全面地理解AI技术的应用场景和发展动态,为学术研究提供了宝贵的数据支持。
实际应用
在实际应用中,该数据集可用于专利检索系统的优化,帮助企业和研究机构快速定位相关技术领域的专利信息。此外,它还可用于技术预测和竞争情报分析,为企业的技术战略制定提供数据依据。
数据集最近研究
最新研究方向
在人工智能领域的专利研究中,USPTO Artificial Intelligence Patent Dataset 数据集近年来成为研究的热点。该数据集聚焦于从2010年至2020年间发布的与人工智能相关的专利,涵盖了知识处理、自然语言处理、机器学习等八个核心主题。研究者们通过提取和分析这些专利的摘要,探索了人工智能技术在不同领域的应用趋势和创新方向。特别是,该数据集的构建过程中,利用Python库从Google专利引擎中获取了缺失的专利摘要,增强了数据集的完整性和研究价值。此外,研究结果通过与arXiv上的相关研究进行对比,揭示了专利文献与学术研究之间的关联和差异,为理解人工智能技术的商业化应用提供了新的视角。这一研究不仅推动了专利数据的深度分析,也为人工智能领域的技术创新和政策制定提供了重要的数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作