Green AI专利数据集
收藏arXiv2025-09-12 更新2025-11-24 收录
下载链接:
https://zenodo.org/records/15545361
下载链接
链接失效反馈官方服务:
资源简介:
本数据集收集了大约63,000项美国专利,涵盖1976年至2023年期间,这些专利既被分类为人工智能发明,也被分类为与气候相关的技术。数据集使用合作专利分类系统(Y02/Y04S)和最近的人工智能专利识别方法(AIPD)进行构建。该数据集旨在研究人工智能与气候适应和缓解技术的交叉点,并分析专利申请趋势、企业技术所有权、专利地理分布、对后续发明的影响以及市场价值。
This dataset comprises approximately 63,000 U.S. patents spanning the period from 1976 to 2023, which are categorized as both artificial intelligence (AI) inventions and climate-related technologies. The dataset was constructed using the Cooperative Patent Classification (CPC) system (Y02/Y04S) and a state-of-the-art AI patent identification method (AIPD). This dataset is designed to investigate the intersection of AI and climate adaptation and mitigation technologies, and analyze patent filing trends, corporate technology ownership, geographic distribution of patents, impacts on subsequent inventions, and market value.
提供机构:
意大利圣安娜高级研究学院经济学与EMbeDS研究所,意大利比萨大学计算机科学系,英国剑桥大学商业研究中心,丹麦技术大学
创建时间:
2025-09-12
搜集汇总
数据集介绍

构建方式
在绿色技术研究领域,Green AI专利数据集的构建采用了严谨的多源数据融合方法。该数据集通过整合美国专利商标局的PatentsView数据库与人工智能专利数据集,筛选出同时具备气候相关分类和AI技术特征的专利文献。具体而言,研究者运用合作专利分类体系中的Y02/Y04S类别标识环境技术,并借助AIPD的机器学习分类器识别AI技术组件,最终形成包含约6.3万项专利的跨学科数据集,时间跨度覆盖1976至2023年。
特点
该数据集展现出显著的多维度特征:其技术领域覆盖16个主题集群,通过BERTopic模型识别出从数据处理到微电网系统的完整技术谱系。时空分布上呈现高度集聚性,美国占主导地位且加州创新密度最高,同时日本、德国等工业强国形成次级创新中心。动态演进方面体现出明确的技术范式转移,传统燃烧发动机领域逐渐式微,而农业水资源管理等新兴领域呈现指数级增长。
使用方法
研究者可基于该数据集开展多层次分析:利用主题建模技术追踪技术演化路径,通过前向引文网络评估知识扩散强度,结合股票市场反应测算专利经济价值。政策制定者能够依据技术影响力与市场价值的二维分析,识别需要重点扶持的气候适应技术领域。该数据集还可用于企业创新战略研究,通过分析专利权人集中度与地理分布,揭示全球绿色AI创新生态系统的竞争格局。
背景与挑战
背景概述
Green AI专利数据集由意大利圣安娜经济学院、比萨大学、剑桥大学及丹麦技术大学的研究团队于2025年构建,聚焦人工智能与气候变化应对技术的交叉领域。该数据集涵盖1976至2023年间约6.3万项美国专利,通过融合CPC绿色技术分类与人工智能专利数据库,系统揭示了绿色AI技术的结构演变与影响力。其核心研究在于解析AI如何驱动能源转型、工业优化及环境监测等气候适应与减缓策略,为可持续创新政策提供了量化依据,推动了跨学科研究范式的革新。
当前挑战
该数据集旨在解决绿色AI技术识别与影响力评估的复杂性挑战,包括如何精准界定气候相关AI专利的语义边界,以及量化其技术扩散与经济价值。构建过程中面临多源数据融合的异构性难题,需协调专利分类体系与自然语言处理模型的适配性;同时,专利文本的领域特异性要求BERTopic等先进主题建模方法克服术语噪声与语义重叠,确保技术领域划分的鲁棒性与可解释性。
常用场景
经典使用场景
在气候变化与人工智能技术融合的研究领域,Green AI专利数据集为分析绿色技术创新轨迹提供了重要支撑。该数据集最经典的使用场景体现在通过BERTopic主题建模技术识别16个核心技术领域,涵盖数据处理、微电网系统、农业水资源管理等方向。研究人员能够基于6.3万项美国专利的语义特征,追踪从传统内燃机技术向新兴数据驱动领域的结构性转变,这种分析模式已成为评估绿色AI技术演进路径的标准化方法。
衍生相关工作
基于该数据集衍生的经典研究集中在三个方向:一是采用UMAP降维技术构建的四大宏观领域分类体系,为后续技术聚类研究树立了范式;二是结合股票市场反应的专利价值评估方法,推动了创新经济学与金融学的跨学科融合;三是对专利所有权集中度的动态监测框架,催生了针对绿色技术垄断风险预警系统的系列研究,这些成果共同构成了绿色AI创新生态系统分析的方法论基础。
数据集最近研究
最新研究方向
在绿色人工智能专利领域,前沿研究聚焦于技术结构的动态演变与跨领域融合。通过BERTopic主题建模识别出的16个技术域显示,数据管理与微电网系统正逐步取代传统内燃机技术成为创新核心。热点事件如中美贸易摩擦与COVID-19疫情虽短期抑制专利增长,但未改变智能能源与农业水资源管理领域的长期上升趋势。这些技术域在知识流动(前向引用)与市场价值维度呈现分化:临床微生物组领域同时具备高学术影响力与经济回报,而气象雷达等技术虽推动知识扩散却缺乏商业激励,凸显政策干预的必要性。该数据集通过揭示技术轨迹与创新不平衡性,为气候科技与人工智能的协同发展提供了量化基准。
相关研究论文
- 1通过意大利圣安娜高级研究学院经济学与EMbeDS研究所,意大利比萨大学计算机科学系,英国剑桥大学商业研究中心,丹麦技术大学 · 2025年
以上内容由遇见数据集搜集并总结生成



