five

BIP! DB

收藏
arXiv2022-05-06 更新2024-06-21 收录
下载链接:
https://doi.org/10.5281/zenodo.4386934
下载链接
链接失效反馈
官方服务:
资源简介:
BIP! DB是由雅典研究与技术基金会等多个机构合作创建的开放数据集,包含超过1.04亿篇科学出版物的多种影响度量。数据集通过整合OpenCitations的COCI数据集、Microsoft Academic Graph和Crossref等主要数据源,利用引文网络分析生成五个有用的影响度量,涵盖科学影响的三个不同方面:流行度、影响力和冲动。该数据集旨在为学术数据管理领域的各种应用提供支持,如学术搜索引擎和科学监测工具,帮助研究人员和学术界专业人士更有效地识别和评估科学出版物的价值。

BIP! DB is an open dataset developed through collaborative efforts among multiple institutions including the Athens Research and Technology Foundation. It encompasses multiple impact metrics for over 104 million scientific publications. By integrating major data sources such as the OpenCitations COCI dataset, Microsoft Academic Graph and Crossref, the dataset generates five practical impact metrics via citation network analysis, covering three distinct dimensions of scientific impact: popularity, influence, and impulsivity. This dataset is designed to support diverse applications in the academic data management domain, including academic search engines and scientific monitoring tools, assisting researchers and academic professionals in identifying and evaluating the value of scientific publications more effectively.
提供机构:
雅典研究与技术基金会
创建时间:
2021-01-28
搜集汇总
数据集介绍
main_image_url
构建方式
在学术出版数量激增的背景下,量化科研成果的影响力成为日益迫切的需求。BIP! DB 数据集通过整合 OpenCitations 的 COCI 数据集、Microsoft Academic Graph 以及 Crossref 三大权威引文数据源,构建了一个涵盖超过 1.04 亿篇学术出版物与 12.5 亿条引用关系的统一引文网络。在数据清洗与整合过程中,仅保留包含明确出版年份的文献,以确保后续影响力指标计算的准确性。在此基础上,研究团队利用 PySpark 框架实现分布式计算,通过 MapReduce 范式并行处理大规模引文网络,最终计算并输出五种核心影响力指标,并以压缩 TSV 文件格式公开提供。
特点
该数据集的核心特色在于其多维度的影响力刻画能力,突破了传统单一指标(如引用次数)的局限。BIP! DB 收录了 Citation Count、Incubation Citation Count、PageRank、RAM 与 AttRank 五种指标,分别对应学术成果的长期影响力、短期脉冲效应、当前关注度等不同维度。其中,RAM 与 AttRank 通过引入时间衰减机制,有效缓解了老文献对新生高质量成果的遮蔽效应。实验表明,同一影响力维度下的指标(如 AttRank 与 RAM)呈现高度相关性,而跨维度指标间相关性较弱,验证了数据集在捕获多元影响力方面的科学性与实用性。
使用方法
BIP! DB 提供了灵活的使用方式,以满足不同场景下的学术数据管理需求。用户可直接从 Zenodo 平台下载 TSV 格式的压缩文件,每行包含文献 DOI 与对应指标分数,便于导入各类数据库或分析工具。此外,数据集还配套了公开的 REST API,支持通过单个或批量 DOI 查询文献的五项影响力分数,返回简洁的 JSON 结构。该数据集可广泛应用于学术搜索引擎的排序优化、科研监测平台的报告生成,以及作为特征用于引文网络的机器学习建模,助力研究者从多角度评估科研成果的真实价值。
背景与挑战
背景概述
在科学出版物数量持续激增的背景下,如何精准识别具有重要影响力的研究成果成为学术界的核心挑战。传统单一维度的引文指标(如引用次数)难以全面反映论文的多元影响力,且易受自我引用等学术不端行为的干扰。为应对这一困境,希腊雅典研究与技术中心的Thanasis Vergoulis团队联合意大利国家研究委员会、OpenAIRE等机构,于2022年发布了BIP! DB数据集。该数据集整合了OpenCitations、Microsoft Academic Graph和Crossref三大引用数据库,涵盖超过1.04亿篇论文及12.5亿条引用关系,提供了五种多维影响力测度(包括引用次数、PageRank、RAM、AttRank及孵化期引用次数),分别表征论文的长期影响力、短期流行度与初始冲击力。这一开创性资源为学术搜索引擎、科研评估系统及文献计量学提供了标准化、可复用的数据基础,显著推动了科学影响力量化研究的发展。
当前挑战
BIP! DB面临的核心挑战在于如何解决科学影响力评估的复杂性与数据构建的工程难题。首先,学术影响力具有多面性,单一测度(如引用次数)无法区分引用来源的重要性,且对近期论文存在固有偏见,导致高影响力低被引论文被忽视。其次,不同应用场景(如资深学者追踪前沿动态与年轻学者撰写综述)对影响力维度的需求截然不同,而现有系统常依赖单一指标,难以兼顾。在数据构建层面,整合三大异构数据源时面临DOI匹配歧义、元数据缺失(如出版年份)及数据清洗的严峻挑战;此外,对超过1亿节点、12亿条边的引用网络进行迭代计算(如PageRank与AttRank)需设计高效的分布式算法,团队采用Spark框架通过MapReduce并行化处理,但资源消耗与更新频率的平衡仍是持续优化的难点。
常用场景
经典使用场景
在科学计量学领域,BIP! DB数据集最经典的使用场景是作为学术搜索引擎和文献检索系统的核心排序依据。该数据集整合了超过1.04亿篇科学出版物的引用网络,并计算了五种涵盖不同影响力维度的指标,包括传统引用计数、PageRank、RAM、AttRank以及孵化期引用计数。研究者可利用这些多维度的影响力评分,对文献检索结果进行精准排序,从而高效识别高影响力或高关注度的学术作品,极大地优化了文献调研与知识发现的效率。
解决学术问题
BIP! DB数据集有效解决了传统单一引用计数指标在学术评估中的局限性。传统引用计数无法区分引文的重要性,且易受自引、引文联盟等不当行为影响。该数据集通过引入PageRank、RAM、AttRank等算法,分别从长期影响力、短期流行度及初始冲击力三个维度量化论文影响力,弥补了单一指标的片面性。这为学术评价提供了更全面、稳健的量化工具,推动了科学计量学从简单计数向多维评估的范式转变。
衍生相关工作
BIP! DB数据集衍生了一系列重要的学术工作。其基础数据整合自OpenCitations COCI、Microsoft Academic Graph与Crossref三大权威来源,构建了大规模统一引用网络。基于此,研究者进一步发展了AttRank算法以捕捉论文短期关注度,并提出了RAM指标用于时间敏感的流行度度量。此外,该数据集催生了BIP! Finder等学术搜索引擎的优化,以及Open Science Observatory等科学监测工具,推动了开放科学基础设施的建设与科研评估方法的创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作