DeepInnovationAI
收藏arXiv2025-03-13 更新2025-03-18 收录
下载链接:
http://arxiv.org/abs/2503.09257v2
下载链接
链接失效反馈官方服务:
资源简介:
DeepInnovationAI是一个综合性的全球数据集,包含3个结构化的文件,旨在分析全球AI技术创新和转移。该数据集汇集了3511929篇学术论文和2356204项专利记录,跨越了60多年的时间,覆盖了全球主要AI创新国家和地区。通过计算学术论文和专利之间的文本相似度,该数据集可以量化研究和应用之间的知识转移,从而测量AI创新扩散模式。
DeepInnovationAI is a comprehensive global dataset consisting of three structured files, purpose-built to analyze global AI technological innovation and transfer. It aggregates 3,511,929 academic papers and 2,356,204 patent records, spanning over 60 years and covering major global countries and regions engaged in AI innovation. By calculating the textual similarity between academic papers and patents, this dataset enables the quantification of knowledge transfer between research and practical applications, thereby measuring the patterns of AI innovation diffusion.
提供机构:
上海人工智能实验室
创建时间:
2025-03-12
搜集汇总
数据集介绍

构建方式
DeepInnovationAI数据集的构建采用了多层次的技术框架,结合了国际专利分类(IPC)代码、GPT-4模型和BERT分类器,以准确识别与人工智能相关的专利和学术论文。首先,通过IPC代码和关键词进行初步筛选,随后利用GPT-4模型进行语义标注,最后通过双层的BERT分类器进行精细分类。此外,数据集还通过超图分析计算专利的创新性,并使用KeyBERT和Doc2Vec模型计算论文与专利之间的语义相似性,生成了包含约一亿对论文-专利相似性对的DeepCosineAI.csv文件。这一构建过程不仅解决了现有数据集在覆盖范围、时间跨度和技术分类上的不足,还提供了全球范围内AI创新和技术转移的全面视角。
使用方法
DeepInnovationAI数据集的使用方法多样,适用于多种研究场景。研究人员可以通过分析DeepPatentAI.csv和DeepDiveAI.csv文件中的关键词、IPC分类和创新性指标,追踪AI技术的时空演变和全球竞争格局。DeepCosineAI.csv文件中的论文-专利相似性矩阵则可用于量化知识转移的强度和效率,揭示科学研究与工业应用之间的联系。此外,数据集支持使用Python或R等编程语言进行数据处理,推荐使用Spark或Dask等分布式计算框架以提高大规模数据处理的效率。通过这些方法,研究人员可以深入探讨AI技术的创新路径、竞争动态和政策影响。
背景与挑战
背景概述
DeepInnovationAI数据集由上海人工智能实验室的研究团队于2024年发布,旨在解决人工智能(AI)领域创新与技术转移的全球性研究问题。该数据集整合了超过350万篇学术论文和235万项专利记录,涵盖了从1960年至2020年的全球AI创新活动。通过结合大语言模型、多语言文本分析和双层BERT分类器,DeepInnovationAI能够精确识别AI相关内容,并利用超图分析构建创新指标。该数据集为研究人员、政策制定者和行业领袖提供了全球AI创新趋势的全面视角,支持对技术发展模式和国际竞争动态的深入分析。
当前挑战
DeepInnovationAI数据集在构建过程中面临多重挑战。首先,现有数据库的碎片化问题使得学术论文与专利数据难以有效整合,导致理论进展与实际应用之间的关联性分析受限。其次,地理覆盖范围和时间跨度的限制阻碍了全球创新活动的比较研究。此外,缺乏统一的AI分类标准和定量创新指标,使得区分渐进式改进与突破性创新变得困难。在技术层面,多语言语义歧义、动态技术边界和标注噪声等问题进一步增加了数据处理的复杂性。尽管采用了BERT等先进模型,但在大规模文本分析中,模型的泛化能力和计算效率仍需进一步提升。
常用场景
经典使用场景
DeepInnovationAI数据集在人工智能创新研究领域具有广泛的应用场景,尤其是在全球范围内追踪从学术研究到工业专利的技术转移过程。通过整合超过350万篇学术论文和235万项专利记录,该数据集为研究者提供了从基础研究到技术应用的完整创新链条分析。其经典使用场景包括利用文本相似性分析(如DeepCosineAI.csv)量化论文与专利之间的知识转移强度,帮助研究者识别从理论突破到商业应用的关键路径。此外,数据集还支持通过超图分析(Hypergraph Analysis)评估技术创新性,揭示技术组合的罕见性和突破性。
解决学术问题
DeepInnovationAI数据集解决了人工智能创新研究中的多个关键问题。首先,它克服了现有数据基础设施的碎片化问题,通过整合学术论文和专利数据,提供了从科学研究到技术应用的完整视角。其次,数据集利用多语言文本分析和双层次BERT分类器,显著提高了AI相关内容的识别精度,解决了传统关键词匹配方法在动态技术领域中的不足。此外,通过计算论文与专利之间的语义相似性,数据集为量化知识转移提供了新的方法,帮助研究者更好地理解理论突破如何转化为商业技术。
实际应用
DeepInnovationAI数据集在实际应用中具有重要价值。它为政策制定者、行业领袖和研究人员提供了全球AI技术创新的动态视图,支持趋势预测和合作机会的识别。例如,通过分析专利和论文的地理分布,数据集可以揭示不同国家和地区的技术创新优势,为制定区域创新政策提供依据。此外,数据集还可用于评估企业的技术竞争力,帮助企业优化研发资源分配。在技术转移方面,数据集通过量化论文与专利的相似性,为评估科研成果的商业化潜力提供了数据支持。
数据集最近研究
最新研究方向
近年来,DeepInnovationAI数据集在人工智能创新研究领域引起了广泛关注,尤其是在全球范围内追踪从学术研究到工业专利的技术转移路径。该数据集通过整合超过350万篇学术论文和235万项专利记录,结合大规模语言模型和多语言文本分析技术,构建了一个全面的创新度量框架。其核心研究方向包括:利用超图分析量化技术创新的新颖性,通过语义向量相似性分析揭示学术论文与专利之间的知识转移模式,以及探索全球AI竞争网络的结构与动态演变。这些研究不仅为政策制定者提供了科学依据,还为产业界识别合作机会和技术趋势提供了重要参考。DeepInnovationAI的广泛应用正在推动人工智能创新研究的范式转变,特别是在跨学科知识融合和技术扩散的量化分析方面。
相关研究论文
- 1DeepInnovation AI: A Global Dataset Mapping the AI innovation from Academic Research to Industrial Patents上海人工智能实验室 · 2025年
以上内容由遇见数据集搜集并总结生成



