five

AffRoDB

收藏
arXiv2025-05-12 更新2025-05-14 收录
下载链接:
https://doi.org/10.5281/zenodo.15322097
下载链接
链接失效反馈
官方服务:
资源简介:
AffRoDB是一个专家整理的数据集,旨在系统地评估机构匹配算法,确保稳健的基准测试。数据集包含了各种复杂的机构字符串,这些字符串通常包括多个组织或额外的信息。AffRoDB的数据集大小、数据量、Tokens数、数据来源等详细信息在论文中未提及。AffRoDB创建过程涉及到先进的解析和消歧技术。AffRoDB的应用领域在于解决机构匹配问题,旨在提高研究元数据质量,促进全面的文献计量分析,并支持跨学术知识库的数据互操作性。

AffRoDB is an expert-curated dataset intended to systematically evaluate affiliation matching algorithms and facilitate robust benchmarking. It comprises a wide range of complex affiliation strings, which frequently embed multiple organizations or extra contextual information. Specific details of AffRoDB, such as its scale, data volume, token count, and data sources, are not mentioned in the accompanying paper. The creation of AffRoDB leverages advanced parsing and disambiguation technologies. This dataset targets addressing affiliation matching issues, with the objectives of enhancing the quality of research metadata, enabling comprehensive bibliometric analysis, and supporting data interoperability across academic knowledge repositories.
提供机构:
IMSI, ATHENA RC, Athens, Greece
创建时间:
2025-05-12
原始信息汇总

AffRoDB: Curated Mappings of affiliation strings to ROR identifiers

基本信息

  • DOI: 10.5281/zenodo.15322098
  • 版本: 1.0
  • 发布日期: 2025年5月2日
  • 许可证: Creative Commons Zero v1.0 Universal
  • 资源类型: 数据集
  • 语言: 英语

创作者

  • Kallipoliti, Myrto (OpenAIRE Non-Profit Civil Partnership)
  • Chatzopoulos, Serafeim (Athena Research and Innovation Center In Information Communication & Knowledge Technologies)
  • Vergoulis, Thanasis (Athena Research Center)

数据管理员

  • Kallipoliti, Myrto
  • Chatzopoulos, Serafeim (Athena Research and Innovation Center In Information Communication & Knowledge Technologies)
  • Adamidi, Eleni (Athena Research and Innovation Center In Information Communication & Knowledge Technologies, Institute of Accelerating Systems and Applications, European Organization for Nuclear Research)
  • Koloveas, Paris (Athena Research and Innovation Center In Information Communication & Knowledge Technologies, University of Peloponnese)
  • Vergoulis, Thanasis (Athena Research Center)

描述

AffRoDB是一个经过整理的数据集,包含从Crossref到研究组织注册表(ROR)ID的原始隶属关系字符串的映射。每个数据集记录都经过多位专家的评估,他们将隶属关系字符串映射到代表相应组织或其父组织的ROR ID。每条记录包括相应出版物的DOI、使用的隶属关系字符串、专家判断以及基于专家判断分配给字符串的最终ID。该数据集旨在通过提供高质量、透明创建和频繁更新的基准数据集,促进机构隶属关系消歧方法的评估和基准测试。此版本的数据集基于2024年1月发布的ROR数据库。

数据集准备

  • 从Crossref随机选择约1500条记录,每条记录具有非空隶属关系列表。
  • 每个隶属关系字符串由两位专家(博士或博士候选人)评估,任务是找到任何相关的ROR ID并为字符串分配标签:
    • EXACT: 找到的ROR ID与字符串中提到的最具体的组织完全对应。
    • ANCESTOR: ROR ID与字符串中提到的父组织对应。
    • VAGUE: 未检测到相关ROR ID或专家无法自信地分配相应的ROR ID。
  • 如果两位专家之间存在分歧,第三位专家会审查隶属关系字符串并最终确定ROR ID及其标签。
  • 通过删除标记为VAGUE的隶属关系,生成原始隶属关系字符串及其对应的ROR链接的数据集。

数据集统计

指标 数量
原始隶属关系字符串 1,374
DOI 1,261
ROR ID 1,484
唯一ROR ID 1,048
精确匹配 381
祖先匹配 1,103

数据集结构

数据集以JSONL格式提供,每行代表一个JSON对象。每个JSON对象包含四个主要字段:

  1. raw_affiliation_string: 表示原始隶属关系数据的字符串。
  2. extracted_dois: 从中提取隶属关系的DOI数组。
  3. expert_judgements: 表示专家评估的对象数组,每个对象包括:
    • expert_id: 专家的ID,正整数。
    • matches: 包含两个字段的对象:
      • exact: 表示精确匹配的字符串数组。
      • ancestor: 表示父组织匹配的字符串数组。
  4. final_judgement: 表示最终评估的对象,包括:
    • exact: 表示精确匹配的字符串数组。
    • ancestor: 表示父组织匹配的字符串数组。

文件

资助

  • 资助机构: European Commission
  • 项目: SciLake – Democratising and making sense out of heterogeneous scholarly content
  • 项目编号: 101058573

关键词

  • affiliation matching
  • bibliographic metadata
  • persistent identifiers

引用

Kallipoliti, M., Chatzopoulos, S., & Vergoulis, T. (2025). AffRoDB: Curated Mappings of affiliation strings to ROR identifiers (1.0) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.15322098

搜集汇总
数据集介绍
main_image_url
构建方式
AffRoDB数据集的构建过程体现了严谨的专家标注机制与系统化质量控制。研究团队从Crossref平台随机抽取1,500条含非空隶属关系的记录,由五名领域专家进行双重独立标注,采用三级分类体系(EXACT/ANCESTOR/VAGUE)标识机构关系。针对标注分歧案例引入第三位专家仲裁,最终形成包含1,374条原始隶属字符串的精选数据集,其中1,475个ROR标识符通过分层抽样确保覆盖单机构和多机构引用场景。数据以JSON Lines格式封装,每个条目包含原始字符串、来源DOI、专家标注记录及终审判定,并附带完整的元数据描述。
使用方法
该数据集主要服务于机构隶属关系解析算法的训练与基准测试。研究者可通过Zenodo平台获取标准化的JSONL格式数据,利用内嵌的expert_judgements字段进行算法监督训练,或基于final_judgement字段开展性能评估。配套提供的RESTful API支持实时隶属解析服务调用,输入原始机构字符串即可返回带置信度评分的ROR ID列表。对于复杂场景验证,建议结合数据集中27.4%的多机构样本测试算法分割能力,并利用ANCESTOR标签案例检验层级关系推理性能。数据集设计兼容Micro-F1等多标签评估指标,满足不同粒度的算法对比需求。
背景与挑战
背景概述
AffRoDB数据集由OpenAIRE AMKE、IMSI、ATHENA RC等机构的研究团队于2025年推出,旨在解决学术文献中机构从属关系字符串与标准化组织标识符(如ROR ID)的精准匹配问题。该数据集通过专家标注的1,374条原始从属关系字符串及其对应的1,475个ROR链接,为学术知识图谱(如OpenAIRE Graph)的元数据质量提升、大规模文献计量分析提供了可靠基准。其多专家独立标注机制和透明更新策略,显著提升了学术机构贡献追踪与跨数据库互操作性的研究效率。
当前挑战
AffRoDB针对的领域核心挑战在于:从属关系字符串常包含多机构混合描述(如联合实验室)、冗余信息(如地址)或非结构化表达,传统基于字符串相似度的匹配方法难以处理此类复杂语义。数据构建过程中,研究团队需克服标注一致性(如多专家对'ANCESTOR'类别的判定差异)、跨版本ROR数据库的标识符更新,以及兼顾精度与召回率的参数优化(如窗口大小与相似度阈值权衡)等挑战。
常用场景
经典使用场景
AffRoDB数据集在学术研究中最经典的使用场景是用于评估和优化机构名称匹配算法。通过提供专家标注的机构名称与ROR ID的映射关系,该数据集为研究人员提供了一个可靠的基准,用于测试和比较不同算法的性能。特别是在处理复杂机构名称字符串时,AffRoDB能够帮助验证算法是否能够准确识别和匹配多个机构,从而提高学术元数据的质量和一致性。
解决学术问题
AffRoDB数据集解决了学术研究中机构名称匹配的多个关键问题。首先,它提供了高质量的标注数据,弥补了现有数据集中标注不一致和规模不足的缺陷。其次,该数据集支持多机构识别,能够处理复杂机构名称字符串,这在以往的研究中常常被忽视。此外,AffRoDB的透明标注过程和定期更新机制确保了数据的可靠性和时效性,为学术研究提供了坚实的基础。
实际应用
在实际应用中,AffRoDB数据集被广泛用于提升学术知识图谱的构建和维护。例如,OpenAIRE Graph等大型学术知识图谱利用该数据集优化其机构名称匹配流程,从而增强元数据的完整性和准确性。此外,科研资助机构和政策制定者也可以通过该数据集追踪机构的科研贡献,识别国际合作模式,从而更好地分配资源和制定政策。
数据集最近研究
最新研究方向
近年来,AffRoDB数据集在学术机构标识匹配领域的研究方向主要集中在提升复杂机构名称字符串的解析与消歧能力。随着全球科研合作日益频繁,机构名称字符串中常包含多个组织信息或冗余内容,传统方法难以应对这一挑战。AffRoDB通过专家标注的基准数据集,为算法评估提供了可靠基础,推动了基于规则与机器学习融合的混合方法发展。该数据集的应用显著提升了OpenAIRE Graph等学术知识图谱的元数据质量,支持了大规模文献计量分析与跨数据库互操作性研究。当前研究热点包括利用预训练语言模型增强语义理解能力,以及开发动态更新机制以适应机构合并、更名等现实场景,这些进展对科研评估、机构合作网络分析等场景具有重要实践意义。
相关研究论文
  • 1
    From raw affiliations to organization identifiersIMSI, ATHENA RC, Athens, Greece · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作