Intelligent Innovation Dataset (IIDS)
收藏arXiv2024-09-11 更新2024-09-13 收录
下载链接:
https://openxlab.org.cn/datasets/Gracie/ZHICHUANGDATA
下载链接
链接失效反馈官方服务:
资源简介:
智能创新数据集(IIDS)是由复旦大学社会智能研究中心、博光创新(上海)大数据技术有限公司和上海人工智能实验室联合开发的,涵盖了近120年的科学研究成果和专利数据。数据集包括论文信息、论文引用关系、专利详情、专利法律状态、资金信息和资金关系,总大小为735.1GB,包含超过9231万篇学术论文记录和超过18亿条引用关系记录。数据集的创建过程包括数据清洗、转换和预处理,确保数据的标准化和质量。该数据集广泛应用于学术研究、商业评估和政策分析,旨在提供全面的数据支持,促进科学研究和创新。
The Intelligent Innovation Dataset (IIDS) is co-developed by the Center for Social Intelligence of Fudan University, Broad Innovation (Shanghai) Big Data Technology Co., Ltd. and Shanghai AI Laboratory. It covers nearly 120 years of scientific research outcomes and patent data. The dataset includes paper information, paper citation relationships, patent details, patent legal status, funding information and funding relationships, with a total size of 735.1 GB, containing over 92.31 million academic paper records and more than 1.8 billion citation relationship records. The creation process of the dataset includes data cleaning, transformation and preprocessing to ensure data standardization and quality. This dataset is widely applied in academic research, business evaluation and policy analysis, aiming to provide comprehensive data support and promote scientific research and innovation.
提供机构:
复旦大学社会智能研究中心、博光创新(上海)大数据技术有限公司、上海人工智能实验室
创建时间:
2024-09-11
搜集汇总
数据集介绍

构建方式
智能创新数据集(IIDS)的构建汇聚了来自多个权威数据库的丰富信息,涵盖了近120年的科学研究成果和专利数据。数据集的构建过程包括从Web of Science、Scopus、Springer等学术数据库中提取论文信息,以及从欧洲专利局(EPO)获取专利数据。此外,数据集还整合了来自美国、中国、日本和加拿大等国家的研究基金信息。通过多源数据的融合与标准化处理,IIDS确保了数据的完整性和可靠性,为研究人员提供了全面的数据支持。
特点
IIDS数据集以其广泛的覆盖范围和丰富的内容著称。该数据集不仅包含了自然科学、医学、社会科学和生命科学等四大类别的27个主要学科和334个次级学科的详细信息,还涵盖了全球范围内的专利数据和研究基金信息。此外,IIDS数据集的时间跨度长达近120年,提供了从1950年至今的专利数据和从1788年至今的论文数据,为研究人员提供了广泛的历史数据参考。
使用方法
IIDS数据集通过六个主要表格(entity_paper、reference_citation_re、entity_fund_re、entity_fund_info、base_patent_detail、base_patent_law_status)提供了详细的数据访问接口。研究人员可以通过这些表格进行数据查询和分析,利用eid、fid、pn等唯一标识符进行跨表关联。数据集的开放访问和详细的数据字段说明,使得研究人员能够方便地进行深入的科学研究和数据分析,从而推动创新研究的发展。
背景与挑战
背景概述
在科学研究与技术创新领域,数据的有效利用对于推动学术进步和政策制定至关重要。Intelligent Innovation Dataset (IIDS) 由复旦大学社会智能研究中心、博光创新(上海)大数据技术有限公司和上海人工智能实验室联合开发,旨在整合近120年的科学研究成果和专利数据。该数据集涵盖了论文信息、论文引用关系、专利详情、专利法律状态、资金信息及其关系,为研究人员提供了全面的数据支持。IIDS的创建不仅解决了数据收集的耗时问题,还通过广泛的上下文和时间覆盖,增强了数据分析的深度和广度,对科学研究和政策分析具有深远影响。
当前挑战
尽管IIDS在数据整合和覆盖范围上取得了显著进展,但其面临的挑战依然显著。首先,数据集的构建过程中,如何确保不同数据源之间的关联性和一致性是一个复杂的问题。其次,数据的时间跨度虽广,但如何处理历史数据与现代数据之间的差异,确保分析结果的准确性,仍需进一步研究。此外,数据集在专利与论文数据之间的互联互通方面尚存不足,缺乏统一的机构索引进行匹配,这限制了跨领域的综合分析能力。未来,解决这些挑战将进一步提升IIDS的应用价值和研究影响力。
常用场景
经典使用场景
在学术研究领域,Intelligent Innovation Dataset (IIDS) 被广泛用于分析科学研究成果与专利之间的关系。通过整合近120年的论文信息、专利详情、资金信息及其相互关系,IIDS为研究人员提供了一个全面的数据支持平台。例如,研究者可以利用IIDS来探索某一特定技术领域的知识演进路径,通过分析论文引用网络和专利法律状态,揭示技术创新的历史轨迹和未来趋势。
解决学术问题
IIDS解决了学术研究中数据碎片化和缺乏跨领域整合的问题。传统上,科学研究成果和专利数据往往分散在不同的数据库中,难以进行综合分析。IIDS通过提供一个统一的、时间跨度广泛的数据集,使得研究者能够进行深入的跨学科研究,从而更好地理解创新过程和技术发展的动态。这不仅有助于学术研究的深化,还为政策制定和企业战略规划提供了有力的数据支持。
衍生相关工作
IIDS的发布催生了一系列相关的经典研究工作。例如,有研究利用IIDS数据分析了全球科研资金分布与科技创新之间的关系,揭示了资金投入对技术突破的推动作用。此外,还有研究通过IIDS数据构建了跨学科的知识图谱,展示了不同学科领域之间的知识流动和交叉创新。这些研究不仅丰富了学术界的理论知识,也为实际应用提供了新的视角和方法。
以上内容由遇见数据集搜集并总结生成



