five

Measuring Technological Innovation Over the Long Run Extended Data

收藏
github2023-11-30 更新2024-05-31 收录
下载链接:
https://github.com/KPSS2017/Measuring-Technological-Innovation-Over-the-Long-Run-Extended-Data
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集提供了从1836年至今的专利重要性和突破性专利的更新指标,以及专利与CPC技术类别的关联和专利间的引用关系。

This dataset provides updated metrics on the significance of patents and breakthrough patents from 1836 to the present, along with the associations between patents and CPC (Cooperative Patent Classification) technology categories, as well as citation relationships among patents.
创建时间:
2023-09-11
原始信息汇总

数据集概述

数据版本

  • 最新版本发布于2023年9月29日,数据更新至2022年底。

数据集描述

  • PatentSimilarityImportanceBreakthrough_forPost2022.csv: 包含1836年至今的专利级面板数据,涵盖专利的前向(影响)和后向(新颖性)相似度、重要性和突破性指标。
  • PatentFullCPC_forPost2022.csv: 包含1836年至2022年间所有专利的CPC技术分类数据。
  • PatentPairwiseCitations_forPost2022.csv: 包含原始论文中更新的引用对数据,并补充了美国专利商标局至2022年底的数据。

变量定义

  • PatentSimilarityImportanceBreakthrough_forPost2022.csv:

    • patent_num: 专利ID号
    • issue_year: 专利发布年份
    • filed_year: 专利申请年份
    • fsim01, fsim25, fsim610: 不同时间段的专利前向相似度
    • bsim5: 后向5年专利相似度
    • lqsim05, lqsim010: 基于相似度的重要性指标
    • fcitALL: 至2022年的总前向引用次数
    • bk_p90_alqsim05, bk_p90_alqsim010: 基于重要性的突破性指标
  • PatentFullCPC_forPost2022.csv:

    • patent_num: 专利ID号
    • CPC: 专利的完整CPC分类
  • PatentPairwiseCitations_forPost2022.csv:

    • citing_patent_num: 引用专利的ID号
    • cited_patent_num: 被引用专利的ID号

注意事项

  • 专利指标受截断延迟影响,重要性和突破性指标计算至2011年(10年向前)和2016年(5年向前)。
  • 数据更新可能因原始专利文本数据变化、申请年份错误修正及文本清洗过程改进而与原始版本有所不同。
  • 专利对引用数据由KPST对引用数据与美国专利商标局的新引用记录共同构成,可用于创建类似基线指标的测量。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于Kelly等人(2021)提出的方法,通过更新专利文本数据、修正历史专利的申请年份错误以及改进文本清理流程,进一步扩展了长期技术创新测量的范围。数据集涵盖了从1836年至今的专利数据,包括专利的重要性指标、突破性专利标识、专利与CPC技术类别的匹配关系以及专利间的引用对。数据来源包括Google Patents数据库和美国专利商标局(USPTO)的最新引用记录,确保了数据的全面性和时效性。
特点
该数据集的特点在于其时间跨度长达近两个世纪,覆盖了从1836年至2022年的专利数据。数据集不仅提供了专利的重要性指标和突破性专利标识,还包含了专利与CPC技术类别的匹配关系以及专利间的引用对。这些数据通过改进的文本清理流程和更新的数据源,显著提升了数据的准确性和一致性。此外,数据集还考虑了专利截断滞后效应,确保了对专利重要性和突破性指标的合理计算。
使用方法
该数据集的使用方法包括加载和分析提供的CSV文件,其中包含专利级别的时间序列数据、专利与CPC类别的匹配数据以及专利引用对数据。研究人员可以通过这些数据计算专利的重要性指标、突破性专利标识,并构建专利引用网络。使用该数据集时,需注意专利截断滞后效应的影响,并参考数据集中的变量定义进行合理的指标计算。此外,使用该数据集的研究成果需引用Kelly等人(2021)的原始论文作为数据来源。
背景与挑战
背景概述
《Measuring Technological Innovation Over the Long Run Extended Data》数据集由Kelly、Papanikolaou、Seru和Taddy等学者于2021年首次提出,旨在通过专利数据衡量长期技术创新的趋势。该数据集的核心研究问题在于如何量化专利的重要性及其突破性,从而为技术创新研究提供可靠的数据支持。数据集涵盖了从1836年至今的专利数据,包括专利的前向与后向相似性、重要性指标以及突破性专利的识别。该数据集不仅更新了原始论文的方法论,还扩展了数据的时间范围至2022年,为经济学、创新管理等领域的研究者提供了宝贵的资源。其影响力体现在为技术创新评估提供了新的视角,并推动了相关领域的定量研究。
当前挑战
该数据集在构建与应用过程中面临多重挑战。首先,专利数据的截断滞后问题显著,专利仅在发布后才能被纳入数据集,导致重要性指标的计算存在时间限制。其次,原始专利文本数据的变化,尤其是由于OCR技术的改进,可能导致专利文本的更新,进而影响指标的一致性。此外,早期专利(如1882-1884年)的申请年份错误以及文本清理过程中对无关短语的排除,也对数据的准确性提出了更高要求。最后,专利引用数据的扩展依赖于USPTO的最新记录,如何确保引用数据的完整性与一致性,也是构建过程中需要克服的关键挑战。这些挑战不仅影响了数据集的构建,也对研究者在应用数据时提出了更高的技术要求。
常用场景
经典使用场景
在技术创新研究领域,Measuring Technological Innovation Over the Long Run Extended Data数据集被广泛用于分析专利的重要性及其突破性。通过提供专利的前向和后向相似性指标,研究者能够深入探讨专利的技术影响力及其创新程度。该数据集的时间跨度从1836年至今,为长期技术演变的研究提供了丰富的历史数据支持。
衍生相关工作
基于该数据集,学术界衍生了一系列经典研究,特别是在技术创新评估、专利网络分析及技术预测等领域。例如,研究者利用该数据集构建了专利引文网络,分析了技术扩散的路径与速度。此外,该数据集还被用于开发新的技术预测模型,为未来的技术趋势提供了重要的参考依据。
数据集最近研究
最新研究方向
近年来,随着技术创新在经济发展中的核心地位日益凸显,Measuring Technological Innovation Over the Long Run Extended Data数据集在技术创新研究领域引起了广泛关注。该数据集通过更新KPST指标和突破性专利的识别方法,为研究者提供了从1836年至今的专利重要性、相似性及引用关系的详细数据。这些数据不仅涵盖了专利的前向和后向相似性,还引入了基于5年和10年时间跨度的突破性专利指标,为技术创新长期趋势的分析提供了重要依据。当前研究热点集中在利用这些数据探索技术创新的动态演变、专利网络的拓扑结构以及技术突破对产业和经济的影响。此外,该数据集还为政策制定者提供了量化技术创新的工具,助力于制定更具前瞻性的科技政策。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作