UKRI Gateway to Research (GtR) Extended Dataset
收藏arXiv2026-03-27 更新2026-03-31 收录
下载链接:
https://github.com/wrmthorne/GtR-Extended
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由英国国家美术馆与谢菲尔德大学联合构建,整合了英国研究创新署(UKRI)三大核心数据源,重构了从资助机会发布到项目成果产出的全生命周期数据链。数据集包含17.3万个项目、262万项研究成果及1,449次评审会议记录,涵盖艺术人文、生物医学等七大研究理事会的数据,通过解析PDF/表格等异构文档实现跨系统实体对齐。其创新性在于首次打通资助机会、评审决策与项目成果的关联,解决了传统GtR数据库存在的阶段性割裂问题,为研究资助公平性、政策效果评估等元分析提供结构化基础。
This dataset was co-developed by The National Gallery and the University of Sheffield, integrating three core data sources from UK Research and Innovation (UKRI) and reconstructing the full lifecycle data chain spanning from the release of funding opportunities to the delivery of project outcomes. Comprising 173,000 projects, 2.62 million research outputs, and 1,449 review meeting records, the dataset covers data from seven research councils including those for arts and humanities, biomedicine and other disciplines. Cross-system entity alignment is achieved by parsing heterogeneous documents such as PDFs and tables. Its core innovation lies in establishing, for the first time, the connections among funding opportunities, review decisions and project outcomes, addressing the staged fragmentation issue plaguing traditional Gateway to Research (GtR) databases, and providing a structured foundation for meta-analyses such as research funding fairness assessment and policy effect evaluation.
提供机构:
国家美术馆; 谢菲尔德大学
创建时间:
2026-03-27
原始信息汇总
GtR-Extended 数据集概述
数据集来源与目的
本数据集是论文《Demystifying Funding: Reconstructing a Unified Dataset of the UK Funding Lifecycle》(发表于NSLP 2026)的配套资源。它首次将英国研究创新署(UKRI)的多个数据源整合为一个统一结构,完整呈现了UKRI的资助生命周期。
核心数据源
- UKRI Gateway to Research (GtR) API:提供项目、资金、组织、人员等核心研究信息。
- UKRI Panel Meetings and Attendance 数据集:提供评审会议、申请及评审人出席信息。
- UKRI funding opportunity pages:通过爬取和AI提取元数据的资助机会页面。
主要数据实体
来自GtR API的实体
- 项目:包含分类信息(研究主题、学科、计划)。
- 资金:与项目关联。
- 组织:包含地址信息。
- 人员:包含ORCID标识符。
- 项目成员:如首席研究员、共同研究员、研究员等。
- 项目合作伙伴:如牵头组织、合作者、共同资助者等。
- 人员-组织关联:雇佣关系。
- 项目关系:如学生项目、项目间转移。
- 成果:包括出版物、关键发现、影响摘要、合作、传播、后续资助、知识产权、政策影响、产品、研究材料、艺术/创意产品、研究数据库/模型、软件/技术产品、衍生公司。
来自会议数据集的实体
- 会议:包含评审小组参考号、理事会、日期、召集人。
- 申请:包含申请人、组织、奖项详情。
- 会议-申请关联:包含排名、结果、分数、授予金额。
- 评审小组出席情况:包含评审人姓名、组织、角色。
来自资助机会页面的实体
- 资助机会:包含通过AI提取的元数据,如资助金额、持续时间、资助者、日期。
实体链接方法
link.py 脚本创建了无法从单一数据源推导的跨实体链接。
- 申请到项目链接 (
--app-proj):通过application_id或award_id与grant_reference进行不区分大小写的精确匹配。 - 申请到资助机会链接 (
--app-opp):基于标题的模糊匹配,并受理事会匹配、日期筛选、金额范围等约束,最低得分阈值为0.65。 - 项目到资助机会链接 (
--proj-opp):通过已链接的申请,将opportunity_id传播给项目。 - 评审出席到人员链接 (
--pan-per):采用两阶段流程,包括基于(姓氏、首字母)的聚类消歧,以及与GtR人员记录的匹配。
数据获取与加载
- 数据库备份下载:可从 https://zenodo.org/records/19243841 下载。
- 加载备份数据库:使用提供的命令可将备份文件恢复到PostgreSQL数据库中。
数据摄入与处理流程
- 数据准备:将原始数据文件按类别置于
./data_cache/目录的相应子目录下。 - 数据摄入:运行
uv run python -m gtr_database.ingest命令。 - 创建链接:运行
uv run python -m gtr_database.link命令以建立实体间链接。 - 数据验证:运行
uv run python -m gtr_database.validate命令以检查数据匹配正确性和存储数据质量。
搜集汇总
数据集介绍

构建方式
在科研资助透明度日益受到关注的背景下,该数据集通过整合三个先前相互独立的公开数据源构建而成:英国研究与创新署(UKRI)的“研究门户”(GtR)项目数据库、UKRI发布的全部资助机会公告,以及各研究理事会公开的竞争性资助决策会议记录。构建过程面临数据格式不一致、访问受限等挑战,研究团队采用信息抽取与实体链接技术,将资助机会、项目提案、评审会议决策及研究成果关联起来,形成了一个覆盖从机会发布到成果产出的完整资助生命周期的统一数据库。
特点
该数据集的核心特点在于其前所未有的完整性与关联性。它不仅包含了已获资助项目的传统元数据,更关键地整合了通常难以公开获取的未获资助提案信息与评审小组决策记录,从而首次实现了对英国公共科研资助全流程的闭环覆盖。数据集的结构设计支持跨阶段分析,允许研究者追溯从资助机会设定、提案评审到最终研究产出的完整链条,为深入探究资助公平性、评审机制与科研政策影响提供了独特的数据基础。
使用方法
该数据集适用于对科研资助体系进行宏观与微观层面的实证研究。研究者可利用其开展资助分配模式分析、评审过程公平性评估、科研政策效果追踪以及跨机构合作网络研究。具体而言,可通过关联资助机会的评估标准、评审会议的决策结果与最终项目成果,分析资助决策的影响因素;或通过比较不同机构、学科领域的资助成功率与产出效率,评估资源配置的有效性。数据集以结构化数据库形式发布,并附有配套代码,便于进行复杂的查询与统计分析。
背景与挑战
背景概述
英国研究与创新署(UKRI)的Gateway to Research(GtR)数据库作为英国公共资助研究项目最全面的公开记录,自推出以来一直是元研究领域的关键数据源。该数据集由英国国家美术馆与谢菲尔德大学的研究团队于2026年重构并扩展,旨在解决原始GtR数据库在数据质量和覆盖范围上的固有缺陷。核心研究问题聚焦于如何整合原本分散的资助机会、项目提案与评审决策记录,以构建一个完整的资助生命周期视图。这一工作不仅填补了现有数据在资助流程上游环节的空白,还为深入分析资助公平性、政策评估及研究效率提供了前所未有的结构化数据基础,对推动科研管理与公共政策研究的透明化与科学化具有重要影响力。
当前挑战
该数据集面临的挑战主要体现在两个层面。在领域问题层面,其核心目标是揭示英国科研资助全流程的完整图景,特别是资助决策阶段的透明度与公平性,但原始数据中资助机会与项目成果之间缺乏明确关联,且评审会议记录发布格式不一、可及性受限,这阻碍了对资助分配机制的系统性审视。在构建过程层面,挑战主要源于多源异构数据的整合困难,包括处理不一致的发布格式(如PDF、电子表格及限制导出的仪表盘数据)、应对实体标识符缺失导致的记录孤立问题,以及从非结构化文本中精确提取元数据所需的高精度信息检索技术。这些技术障碍与数据可及性限制共同构成了数据集构建中的主要难点。
常用场景
经典使用场景
在科研资助透明度与政策评估领域,UKRI Gateway to Research (GtR) Extended Dataset 的经典应用场景在于重构完整的资助生命周期。该数据集通过整合资助机会、项目提案与评审会议决策记录,实现了从机会发布到研究成果的全链条追踪。研究者能够利用这一统一框架,深入分析资助决策的透明度与公平性,揭示评审过程中可能存在的系统性偏差,从而为优化科研资助体系提供实证基础。
解决学术问题
该数据集有效解决了科研资助研究中长期存在的关键问题,即资助生命周期数据的碎片化与不透明性。传统研究往往局限于已资助项目及其成果,难以触及评审决策与未获资助提案等上游环节。通过链接机会、提案与决策记录,该数据集支持跨阶段分析,使得探究资助公平性、评审偏见以及机构代表性等议题成为可能,为理解资助分配机制提供了前所未有的数据支撑。
衍生相关工作
该数据集已衍生出多项经典研究工作,特别是在资助公平性与政策评估领域。例如,Liyanage 等人(2024)利用数据集揭示了英国罗素集团大学在资助中的系统性过度代表现象。此外,研究还扩展到评估资助对商业绩效的影响(Vanino 等人,2019),以及探索地理连通性对科研合作的作用(Harris,2025)。这些工作共同推动了科研资助从结果描述向过程机理的深度解析。
以上内容由遇见数据集搜集并总结生成



