five

DeepInnovationAI

收藏
arXiv2025-03-12 更新2025-03-14 收录
下载链接:
http://arxiv.org/abs/2503.09257v1
下载链接
链接失效反馈
官方服务:
资源简介:
DeepInnovationAI是一个全球性的综合数据集,旨在连接学术研究和工业专利之间的空白。该数据集由上海人工智能实验室创建,包含3511930篇学术论文和2356204项专利记录,覆盖了60多年的数据,跨越了全球主要的人工智能创新国家和地区。数据集通过深度学习技术,如关键字匹配、大型语言模型和双层BERT分类器,精确识别AI相关内容,并使用超图分析方法来评估创新的新颖性。DeepInnovationAI支持对技术创新模式和国际化竞争动态的详细分析,为建模AI创新动态和技术转移过程提供了坚实的基础。

DeepInnovationAI is a global comprehensive dataset designed to bridge the gap between academic research and industrial patents. Developed by the Shanghai AI Laboratory, this dataset contains 3,511,930 academic papers and 2,356,204 patent records, spanning over 60 years of data and covering major global countries and regions focused on AI innovation. The dataset accurately identifies AI-related content using deep learning techniques such as keyword matching, large language models (LLMs), and two-layer BERT classifiers, and employs hypergraph analysis methods to assess the novelty of innovations. DeepInnovationAI supports detailed analyses of technological innovation patterns and international competitive dynamics, providing a solid foundation for modeling AI innovation dynamics and technology transfer processes.
提供机构:
上海人工智能实验室
创建时间:
2025-03-12
搜集汇总
数据集介绍
main_image_url
构建方式
DeepInnovationAI数据集的构建采用了多语言文本处理系统和双层BERT分类器,结合了关键词匹配、大型语言模型等技术,以确保准确识别与人工智能相关的文档。该数据集的构建分为三个模块:文本获取与分类、超图驱动的创新量化以及论文-专利相似度。文本获取与分类模块通过国际专利分类代码、大型语言模型和双层BERT分类器进行文档的初步筛选、语义理解和精确分类。超图驱动的创新量化模块通过概率超图建模计算专利的新颖性,使用KeyBERT模型从专利文本中提取关键技术特征,并结合深度学习技术分析技术元素之间的关系。论文-专利相似度模块利用KeyBERT和Doc2Vec模型计算学术论文和专利之间的语义相似性,构建论文-专利相似度矩阵,从而量化研究论文和专利之间的知识转移。
特点
DeepInnovationAI数据集的特点在于其全面性和创新性。该数据集包括3,511,929篇学术论文和2,356,204项专利记录,覆盖了1960年至2020年的全球数据。它不仅提供了丰富的文本信息,还通过超图分析方法和语义向量相似性分析,为研究者提供了创新的度量指标和跨模态相关性网络。数据集的构建考虑到了多语言文本的语义模糊性和动态技术边界,通过双层分类框架和深度学习模型,实现了对大规模专利数据的准确分类。此外,DeepInnovationAI数据集还提供了论文-专利相似度矩阵,有助于研究者深入理解理论知识如何转化为商业技术。
使用方法
DeepInnovationAI数据集的使用方法包括多种分析维度,如全球人工智能竞争网络结构分析、人工智能技术主题分析、人工智能时空演化分析以及人工智能知识转移分析。研究者可以利用Python、R等常见工具,以及Spark或Dask等计算框架,对数据进行处理和分析。数据集的公开访问链接为https://doi.org/10.6084/m9.figshare.28578947,研究者可以下载CSV文件,并根据研究兴趣和需求,动态计算额外的论文-专利相似度。DeepInnovationAI数据集为研究全球人工智能技术创新和转移提供了丰富的数据资源,有助于深入理解人工智能的发展趋势和影响。
背景与挑战
背景概述
在人工智能(AI)领域迅猛发展的当下,映射创新模式并理解学术研究到实际应用的有效技术转移对经济增长至关重要。DeepInnovationAI数据集的创建旨在填补学术论文与工业专利之间的空白,提供全面的数据支持。该数据集由上海人工智能实验室的研究人员于2023年开发,收录了从1960年至2020年的3,511,929篇学术出版物和2,356,204项专利记录。DeepInnovationAI的数据集由三个结构化文件组成:DeepPatentAI.csv包含2,356,204项专利记录,DeepDiveAI.csv涵盖3,511,929篇学术出版物,DeepCosineAI.csv包含约一亿个计算出的论文-专利相似性对。DeepInnovationAI利用大型语言模型、多语言文本分析和双层BERT分类器准确识别AI相关内容,并通过超图分析方法创建稳健的创新指标。此外,通过语义向量邻近度分析,DeepCosineAI.csv文件展示了大约一亿个计算的论文-专利相似性对,以增强对理论进步如何转化为商业技术的理解。DeepInnovationAI数据集对研究人员、政策制定者和行业领导者预测趋势和识别新兴合作领域具有重要意义。其广泛的时间和地理范围支持对技术发展模式和国际竞争动态的详细分析,为建模AI创新动态和技术转移过程提供了坚实的基础。
当前挑战
DeepInnovationAI数据集面临的挑战包括数据碎片化、覆盖不完整和评估能力不足。首先,现有的数据库通常独立运作,学术平台如Google Scholar和Dimensions主要关注研究文章,而专利数据库如Google Patents和Derwent Innovation则专注于技术实施。这种分离使得将理论进步与其实际应用联系起来变得复杂。此外,许多数据库在地理覆盖范围和时效性方面存在限制,阻碍了全球比较分析。其次,现有的数据集通常缺乏创新的定量措施,这对于区分增量改进和转型突破以及评估竞争强度至关重要。为了克服这些挑战,DeepInnovationAI数据集采用了基于深度学习的多语言文本处理系统,结合关键词匹配、大型语言模型和双层BERT分类器,以提高识别AI相关内容的准确性。DeepInnovationAI数据集还包括一个使用KeyBERT和Doc2Vec计算研究论文和专利之间文本相似性的模块,以量化知识和应用之间的知识转移,从而能够测量AI创新扩散模式。此外,DeepInnovationAI数据集还采用了超图分析方法来评估创新的新颖性,通过测量知识组合的统计稀有性来客观识别AI发展中的技术突破和竞争动态。
常用场景
经典使用场景
DeepInnovationAI数据集在学术研究中被广泛应用于理解人工智能创新模式,以及从学术研究到工业专利的有效技术转移。该数据集提供了全球范围内的专利记录和学术出版物,有助于研究人员、政策制定者和行业领导者预测趋势,识别新兴合作领域,并支持对技术发展模式和全球竞争动态的详细分析。
衍生相关工作
DeepInnovationAI数据集的发布衍生了许多相关的工作。例如,一些研究利用该数据集来分析全球人工智能竞争网络结构,揭示不同国家在人工智能领域的优势和劣势。此外,一些研究还利用该数据集来分析人工智能技术的时空演变,并预测未来技术趋势。这些相关工作的开展,进一步推动了人工智能创新和技术转移的研究。
数据集最近研究
最新研究方向
在人工智能领域,DeepInnovationAI数据集为研究者提供了一个全面且深入的视角,以探索人工智能从学术研究到产业专利的转化过程。该数据集通过整合学术文献和专利记录,克服了现有数据基础设施的碎片化、覆盖不完整和评估能力不足等问题,为全球人工智能技术创新轨迹提供了详尽的记录。DeepInnovationAI包含了2,356,204个专利记录和3,511,929篇学术出版物,并利用大型语言模型、多语言文本分析和双层BERT分类器等先进技术,准确识别与人工智能相关的内容。此外,数据集还通过语义向量邻近度分析,计算了近一亿个论文-专利相似度对,以增强对理论进展如何转化为商业技术的理解。DeepInnovationAI的广泛应用包括全球人工智能竞争网络结构分析、人工智能技术主题分析、人工智能时空演化分析以及人工智能知识转移分析等。这些应用不仅有助于研究者、政策制定者和行业领导者预测趋势和识别新兴的合作领域,还支持对技术创新模式和国际贸易竞争动态的深入分析,为建模人工智能创新动态和技术转移过程提供了坚实的基础。
相关研究论文
  • 1
    DeepInnovation AI: A Global Dataset Mapping the AI innovation and technology Transfer from Academic Research to Industrial Patents上海人工智能实验室 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作