tjumbo/ncn-dataset
收藏Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/tjumbo/ncn-dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
language:
- pl
pretty_name: NCN Research Projects Dataset
size_categories:
- 10K<n<100K
configs:
- config_name: example-ncn-publications
data_files:
- split: train
path: example-ncn-publications/train-*
- config_name: ncn-projects
data_files:
- split: train
path: data/ncn-projects/*.parquet
- config_name: ncn-publications
data_files:
- split: train
path: data/ncn-publications/*.parquet
- config_name: ncn-unresolved-publications
data_files:
- split: train
path: ncn-unresolved-publications/train-*
- config_name: ncn-unresolved-publications-enriched
data_files:
- split: train
path: ncn-unresolved-publications-enriched/train-*
- config_name: ncn-unresolved-publications-mapping
data_files:
- split: train
path: ncn-unresolved-publications-mapping/train-*
- config_name: paper-journal-mapping
data_files:
- split: train
path: paper-journal-mapping/train-*
dataset_info:
- config_name: example-ncn-publications
features:
- name: publication_id
dtype: string
- name: doi
dtype: string
- name: journal
dtype: string
- name: url_id
dtype: int64
- name: project_id
dtype: string
- name: pub_type
dtype: string
splits:
- name: train
num_bytes: 109207
num_examples: 500
download_size: 70530
dataset_size: 109207
- config_name: ncn-unresolved-publications
features:
- name: doi
dtype: string
- name: journal
dtype: string
- name: url_id
dtype: int64
- name: project_id
dtype: string
- name: pub_type
dtype: string
splits:
- name: train
num_bytes: 5456
num_examples: 50
download_size: 4480
dataset_size: 5456
- config_name: ncn-unresolved-publications-enriched
features:
- name: doi
dtype: large_string
- name: journal
dtype: large_string
- name: url_id
dtype: int64
- name: project_id
dtype: large_string
- name: pub_type
dtype: large_string
- name: pmid_missing
dtype: float64
- name: journal_issn
dtype: large_string
- name: journal_name
dtype: large_string
- name: mapping_status
dtype: large_string
- name: SJR_Score
dtype: string
- name: SJR_Best_Quartile
dtype: string
- name: SJR_H_Index
dtype: string
- name: SJR_Open_Access
dtype: string
- name: SJR_Areas
dtype: string
splits:
- name: train
num_bytes: 11182
num_examples: 50
download_size: 9462
dataset_size: 11182
- config_name: ncn-unresolved-publications-mapping
features:
- name: doi
dtype: large_string
- name: pmid
dtype: large_string
- name: journal_issn
dtype: large_string
- name: journal_name
dtype: large_string
- name: mapping_status
dtype: large_string
splits:
- name: train
num_bytes: 2046
num_examples: 18
download_size: 3407
dataset_size: 2046
- config_name: paper-journal-mapping
features:
- name: doi
dtype: string
- name: pmid
dtype: 'null'
- name: journal_issn
dtype: string
- name: journal_name
dtype: string
- name: mapping_status
dtype: string
splits:
- name: train
num_bytes: 5197977
num_examples: 64340
download_size: 899591
dataset_size: 5197977
---
# NCN Research Projects Dataset
Scraped from the Polish National Science Centre (NCN) public database at
[projekty.ncn.gov.pl](https://projekty.ncn.gov.pl/).
Covers all **settled projects** (`status=1`, *Projekty Rozliczone*) across
major Polish academic cities plus a global search pass.
## Subsets
### `ncn-projects`
One row per NCN research grant.
| Column | Type | Description |
|---|---|---|
| `url_id` | int | NCN portal `projekt_id` (primary key) |
| `title` | str | Project title (Polish) |
| `project_id` | str | Registration number, e.g. `2015/17/B/NZ2/03692` |
| `panel` | str | Discipline panel code, e.g. `NZ2` |
| `area_of_science` | str | High-level area: `NZ`, `HS`, or `ST` |
| `institution` | str | Host institution name |
| `region` | str | Polish voivodeship, e.g. `mazowieckie` |
| `city` | str | City of the institution |
| `pi_name` | str | Principal investigator name and title |
| `num_employees` | int | Number of project employees |
| `funding_amount_pln` | float | Awarded funding in PLN |
| `start_date` | date | Project start date |
| `end_date` | date | Project end date |
| `duration_months` | int | Planned duration in months |
| `status` | str | Project status (always *Projekt rozliczony* here) |
### `ncn-publications`
One row per publication reported in the project's final report.
| Column | Type | Description |
|---|---|---|
| `url_id` | int | NCN `projekt_id` (foreign key → `ncn-projects`) |
| `project_id` | str | Registration number |
| `pub_type` | str | `article`, `book`, or `conference` |
| `publication_id` | str | Internal deterministic publication key (`url_id:pub_type:title_norm`) |
| `title` | str | Publication title |
| `authors` | str | Author list |
| `journal` | str | Journal or publisher name |
| `doi` | str | Valid DOI identifier (null if not reported/invalid) |
| `link` | str | Source publication URL (if reported) |
| `quality_score` | float | Mock score: DOI present→1.0, absent→0.1, book→0.5 |
> **Note:** `quality_score` is a placeholder. Real journal metrics (SJR, h-index)
> will replace it in a future version.
## Source & Licence
Data scraped from the publicly accessible NCN portal. Released under
[CC BY 4.0](https://creativecommons.org/licenses/by/4.0/).
提供机构:
tjumbo
搜集汇总
数据集介绍

构建方式
在科研项目管理领域,数据集的构建往往依赖于对公共数据库的系统性采集与整合。NCN研究项目数据集通过爬取波兰国家科学中心公开数据库中的已结题项目信息,构建了涵盖项目详情与科研成果的结构化记录。该数据集以项目为单位,提取了包括项目编号、资助金额、研究团队及执行期限在内的核心元数据,并进一步关联了项目产出的学术出版物,形成了项目与成果之间的映射关系。数据采集过程注重信息的完整性与准确性,确保了原始公开数据的忠实再现。
特点
该数据集的核心特征在于其多层次的结构化设计,不仅提供了研究项目的基本管理信息,还深度整合了相关的学术出版物记录。数据集通过唯一的项目标识符将项目元数据与出版物细节进行关联,实现了从资助投入到科研产出的完整追踪。出版物部分包含了标题、作者、期刊及数字对象标识符等丰富字段,并引入了初步的质量评分机制。此外,数据集规模适中,覆盖了波兰主要学术城市的项目,具有明确的地域与学科代表性,为分析科研资助效益提供了扎实的数据基础。
使用方法
该数据集适用于科研政策分析、学术影响力评估及科学计量学研究等多个方向。使用者可通过项目标识符或注册号,便捷地查询特定研究项目的详细信息及其关联的学术成果。对于出版物数据,可利用数字对象标识符或期刊名称字段进行检索与匹配,进而分析科研成果的分布特征与质量概况。数据集采用Parquet格式存储,支持高效的数据读取与处理,研究者可结合统计工具或机器学习方法,深入探索科研资助与学术产出之间的复杂关系。
背景与挑战
背景概述
在科研管理与科学计量学领域,追踪研究项目与其产出成果之间的关联是评估科研资助效益的核心议题。NCN研究项目数据集由相关研究机构或团队构建,旨在系统收录波兰国家科学中心资助的已结题项目及其发表的学术成果。该数据集通过整合项目元数据与出版物信息,为分析科研资助的影响力、学科发展趋势以及机构科研绩效提供了结构化数据基础。其创建反映了开放科学运动中增强科研透明度与可重复性的趋势,对波兰乃至国际科研评估实践具有参考价值。
当前挑战
该数据集致力于解决科研成果归因与影响力量化这一领域问题,其挑战在于准确、全面地链接项目资助与多元化学术产出,并克服出版物数据异构性带来的整合难题。在构建过程中,数据采集面临公开数据库信息非结构化、字段缺失或格式不一致的挑战,例如出版物DOI标识符的完整性与有效性校验。此外,将原始数据规范化为统一、可计算的指标,如引入真实的期刊计量学替代临时质量评分,亦是一项复杂的数据工程任务。
常用场景
经典使用场景
在科研政策与学术计量领域,NCN数据集为分析科研资助与学术产出关联提供了关键资源。该数据集整合了波兰国家科学中心资助项目的详细信息及其关联的出版物记录,使得研究者能够深入探究科研经费投入与成果发表之间的动态关系。通过项目面板、学科领域、机构分布等多维度特征,结合出版物的类型、期刊及质量评分,该数据集支持对科研绩效的量化评估,常用于构建资助效果分析模型,揭示不同学科或区域的科研产出模式。
实际应用
在实际应用中,NCN数据集被广泛用于科研政策制定、机构绩效评估与资源优化配置。政府部门与资助机构可借助该数据集分析不同学科面板或地区的科研产出效益,为未来资助策略提供数据支撑。高等教育机构则能通过对比项目成果,优化内部资源分配与人才引进政策。同时,出版机构与学术平台可利用数据集中的期刊与DOI信息,追踪波兰学术成果的传播路径,增强学术资源的整合与检索效率。
衍生相关工作
围绕NCN数据集,已衍生出多项经典研究工作,主要集中在科学计量学与科研政策分析领域。例如,基于项目-出版物关联网络的研究,探讨了跨学科合作对创新产出的影响;利用期刊指标与质量评分开发的科研绩效预测模型,提升了资助效果的前瞻性评估能力。此外,结合地理信息的分析揭示了科研活动的区域集聚效应,为区域创新政策提供了实证基础。这些工作不仅丰富了数据集的学术价值,也推动了开放科学数据在公共政策中的应用实践。
以上内容由遇见数据集搜集并总结生成



