five

ncn-dataset

收藏
Hugging Face2026-03-08 更新2026-03-09 收录
下载链接:
https://huggingface.co/datasets/tjumbo/ncn-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
NCN研究项目数据集是从波兰国家科学中心(NCN)公开数据库[projekty.ncn.gov.pl](https://projekty.ncn.gov.pl/)中抓取的数据集,涵盖所有已结算项目(状态为'Projekty Rozliczone')。数据集包含两个子集:1) 'ncn-projects':每个NCN研究资助项目为一行,包含项目ID、标题、注册号、学科面板代码、科学领域、主办机构名称、地区、城市、首席研究员信息、员工数量、资助金额(PLN)、起止日期、持续时间(月)和状态等字段;2) 'ncn-publications':每个项目最终报告中报告的出版物为一行,包含项目ID、出版物类型、出版物ID、标题、作者列表、期刊或出版商名称、DOI标识符、来源出版物URL和质量评分(占位符字段)等字段。数据集规模在1万到10万之间,使用CC BY 4.0许可协议发布。
创建时间:
2026-03-02
原始信息汇总

NCN Research Projects Dataset 数据集概述

数据集基本信息

  • 数据集名称:NCN Research Projects Dataset
  • 发布平台:Hugging Face
  • 许可证:CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/)
  • 主要语言:波兰语 (pl)
  • 数据规模:10K<n<100K

数据来源与内容

  • 来源:数据爬取自波兰国家科学中心(NCN)的公共数据库 (https://projekty.ncn.gov.pl/)。
  • 覆盖范围:涵盖所有已结算项目(status=1, Projekty Rozliczone),包括波兰主要学术城市的数据和一次全局搜索的结果。

数据集子集与结构

数据集包含两个配置(子集)。

子集一:ncn-projects

  • 描述:每个波兰国家科学中心(NCN)研究资助项目为一行。
  • 数据文件data/ncn-projects/*.parquet
  • 字段结构
    • url_id (int): NCN门户网站的projekt_id(主键)。
    • title (str): 项目标题(波兰语)。
    • project_id (str): 注册号,例如2015/17/B/NZ2/03692
    • panel (str): 学科小组代码,例如NZ2
    • area_of_science (str): 高层级领域:NZHSST
    • institution (str): 主持机构名称。
    • region (str): 波兰省份,例如mazowieckie
    • city (str): 机构所在城市。
    • pi_name (str): 首席研究员姓名和头衔。
    • num_employees (int): 项目雇员人数。
    • funding_amount_pln (float): 资助金额(波兰兹罗提)。
    • start_date (date): 项目开始日期。
    • end_date (date): 项目结束日期。
    • duration_months (int): 计划持续时间(月)。
    • status (str): 项目状态(此处始终为Projekt rozliczony)。

子集二:ncn-publications

  • 描述:项目最终报告中报告的每篇出版物为一行。
  • 数据文件data/ncn-publications/*.parquet
  • 字段结构
    • url_id (int): NCN的projekt_id(外键,指向ncn-projects)。
    • project_id (str): 注册号。
    • pub_type (str): 类型:articlebookconference
    • publication_id (str): 内部确定性出版物键(url_id:pub_type:title_norm)。
    • title (str): 出版物标题。
    • authors (str): 作者列表。
    • journal (str): 期刊或出版商名称。
    • doi (str): 有效的DOI标识符(如未报告或无效则为空)。
    • link (str): 来源出版物URL(如已报告)。
    • quality_score (float): 模拟分数:有DOI→1.0,无DOI→0.1,书籍→0.5。

重要说明

  • quality_score字段是一个占位符。未来的版本将用真实的期刊指标(如SJR、h-index)替代它。
搜集汇总
数据集介绍
main_image_url
构建方式
在波兰国家科学中心(NCN)公开数据库的基础上,ncn-dataset通过系统化的网络爬取技术构建而成,覆盖了所有已结题的研究项目。数据采集聚焦于波兰主要学术城市,并辅以全局检索,确保了样本的代表性与完整性。数据集以结构化格式存储,包含项目基本信息与关联的科研成果,为学术政策分析提供了可靠的数据基础。
使用方法
研究人员可利用该数据集进行科研资助效益分析、学科发展趋势评估或机构绩效比较。通过关联项目与出版物子集,能够追踪经费投入与学术产出的对应关系。数据以Parquet格式提供,支持高效的大规模处理,适用于统计建模、可视化分析或政策模拟等应用场景,为社会科学与科学学领域的实证研究提供丰富素材。
背景与挑战
背景概述
在科研管理与科学计量学领域,系统性地追踪和分析科研项目的投入与产出,对于评估科研资助效益、理解学科发展趋势至关重要。NCN数据集由数据采集者从波兰国家科学中心(NCN)的公开数据库中提取并构建,涵盖了所有已结题的科研项目及其关联的学术出版物。该数据集的核心研究问题聚焦于揭示波兰科研资助的分布模式、项目执行效率以及科研成果的转化路径,为科研政策分析、机构绩效评估及跨学科研究提供了宝贵的实证数据基础。
当前挑战
该数据集旨在应对科研绩效量化与关联分析中的核心挑战,即如何将离散的资助项目信息与复杂的科研成果网络进行有效整合,以支持跨时间、跨学科的宏观趋势分析。在构建过程中,挑战主要源于异构数据的集成与清洗,例如从非结构化的项目报告中提取并标准化出版物元数据(如作者列表、期刊名称),以及处理缺失或不一致的标识符(如DOI)。此外,模拟的质量评分字段作为临时替代品,突显了获取并集成权威期刊计量指标的实践难度,这限制了当前版本在科研成果影响力精细评估中的应用潜力。
常用场景
经典使用场景
在科研政策与学术管理领域,NCN数据集为分析波兰国家科研资助的分布与成效提供了结构化基础。该数据集常被用于探索科研项目的学科布局、地域分配及经费使用效率,通过整合项目信息与成果出版物,研究者能够系统评估资助策略对科学产出的影响。例如,利用面板代码和科学领域分类,可以追踪不同学科的资金流向,并结合出版物数据衡量科研项目的学术影响力,从而为优化资源配置提供实证依据。
解决学术问题
该数据集有效解决了科研评估中数据碎片化与可追溯性不足的难题。通过关联项目详情与成果出版物,它支持对资助绩效的量化分析,如探究经费投入与论文产出间的关联性,或识别高影响力研究的驱动因素。其结构化设计有助于克服传统评估中主观性强、数据缺失的局限,为科学计量学、科研政策研究提供了可靠、透明的数据源,推动了基于证据的决策制定。
实际应用
在实际应用中,NCN数据集被政府部门和资助机构用于监测科研项目的执行情况与成果转化。机构可依据项目地域、学科分布调整资助重点,确保资源均衡分配;同时,通过出版物质量指标(如DOI存在性)初步评估成果的可见性与严谨性。此外,高等教育机构能借此分析本校项目的产出效率,优化内部管理策略,提升科研竞争力。
数据集最近研究
最新研究方向
在科研管理与科学计量学领域,NCN数据集为分析波兰国家科研资助结构与成果转化提供了独特视角。当前研究聚焦于利用该数据集探索跨学科合作模式与科研产出效率,结合项目经费、学科面板及出版物数据,揭示资助政策对创新生态的影响。热点方向包括基于机器学习预测项目成果质量,以及评估区域科研竞争力与知识扩散路径。这些研究不仅深化了对中东欧科研体系的理解,也为全球科研资助评估提供了可比较的实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作