APC价格数据集
收藏arXiv2024-06-13 更新2024-06-14 收录
下载链接:
https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/CR1MMV
下载链接
链接失效反馈官方服务:
资源简介:
APC价格数据集是由渥太华大学图书馆等研究机构创建,涵盖了2019至2023年间Elsevier、Frontiers、MDPI、PLOS、Springer Nature和Wiley六大出版社的APC价格信息。数据集包含8,712种独特期刊的36,618条记录,详细记录了期刊元数据、APC收集方法及年度APC价格列表。创建过程中,研究人员通过多种方式收集和整理数据,确保了数据集的准确性和可用性。该数据集主要用于支持图书馆资源开发和科学计量分析,旨在更精确地分析APC支付情况,特别是在黄金和混合OA期刊中。
The APC Price Dataset was developed by research institutions including the University of Ottawa Library. It covers APC price information of six major publishers (Elsevier, Frontiers, MDPI, PLOS, Springer Nature and Wiley) spanning the period from 2019 to 2023. The dataset contains 36,618 records across 8,712 unique journals, with detailed entries on journal metadata, APC collection approaches and annual APC price lists. During its development, researchers collected and curated the data via multiple methods to ensure its accuracy and usability. This dataset is primarily intended to support library resource development and scientometric analysis, with the goal of conducting more precise investigations into APC payment scenarios, particularly for gold and hybrid OA journals.
提供机构:
渥太华大学图书馆
创建时间:
2024-06-13
搜集汇总
数据集介绍

构建方式
在开放获取出版日益成为学术交流主流的背景下,APC价格数据集的构建旨在系统追踪主要出版商的文章处理费用变化。研究团队从爱思唯尔、前沿、MDPI、PLOS、施普林格·自然和威利这六家大型学术出版商的官方网站及网络存档中,逐年采集了2019年至2023年的APC价目表。数据来源包括PDF、XLSX及HTML等多种格式,通过混合手动与自动化方法进行整合与清洗,例如对PDF表格进行复制粘贴、利用Python脚本重组数据,并对期刊标题变体、ISSN编号及货币单位进行了标准化处理,最终生成了包含8,712种独特期刊和36,618个期刊-年份组合的机器可读数据集。
使用方法
该数据集为学术出版经济与开放获取政策研究提供了实证基础。研究人员可直接利用其进行APC费用的纵向与横向比较,例如分析不同出版模式(黄金OA与混合OA)的成本差异,或评估特定国家或机构的APC支出趋势。图书馆员可借助该数据集辅助馆藏发展与谈判,优化“阅读与出版”协议的成本效益。在使用时,用户可通过数据集中的变量(如APC_order)筛选每年每刊的唯一费用,并参考附带的货币汇率进行跨币种分析。数据集以CC-0许可开放于哈佛Dataverse,支持直接下载与二次分析。
背景与挑战
背景概述
在开放获取(Open Access, OA)学术出版模式日益普及的背景下,文章处理费(Article Processing Charges, APCs)作为支撑金色OA与混合OA期刊运营的关键经济机制,其定价透明度与标准化分析成为学术界与图书馆界关注的焦点。APC价格数据集由Scholarly Communications Lab的研究团队于2024年正式发布,汇集了Elsevier、Frontiers、PLOS、MDPI、Springer Nature和Wiley六大出版商在2019年至2023年间公布的APC价目表。该数据集旨在通过系统化整理8,712种独特期刊的36,618条年度价格记录,为科学计量研究、出版市场分析及图书馆馆藏发展提供精准的数据支持,从而推动对OA出版经济结构的深入理解。
当前挑战
该数据集致力于解决开放获取出版领域中APC定价不透明与标准化缺失的挑战,具体体现在如何准确追踪跨出版商、跨年份的APC动态变化,并量化金色OA与混合OA期刊之间的费用差异。在构建过程中,研究团队面临多重技术性难题:首先,原始数据来源格式异构,包括PDF、HTML及XLSX等多种非结构化文件,需通过人工录入与自动化脚本结合的方式进行提取与清洗;其次,期刊标识符(如ISSN)在出版商价目表中存在缺失或错误,需通过外部数据库验证与手动修正以确保数据一致性;此外,货币单位多样性与汇率波动要求引入年度平均汇率进行标准化转换,以支持跨币种比较分析。这些挑战凸显了构建大规模、机器可读APC数据集的复杂性与必要性。
常用场景
经典使用场景
在开放获取出版领域,APC价格数据集为学者和机构提供了分析文章处理费用动态的基准。该数据集整合了六大出版商(Elsevier、Frontiers、PLOS、MDPI、Springer Nature和Wiley)在2019至2023年间的价格清单,涵盖8,712种期刊的36,618个数据点。其经典使用场景在于支持科学计量学研究,通过追踪APC的年度变化、比较不同出版商及开放获取模式(如金色与混合OA)的定价策略,揭示学术出版市场的经济结构。例如,研究者可利用该数据集分析APC上涨趋势与通货膨胀的关系,或评估出版商在开放获取转型中的商业行为。
解决学术问题
该数据集解决了开放获取出版研究中长期存在的关键问题,即缺乏标准化、跨年份的APC价格数据。传统上,APC信息分散于各出版商网站,格式不一且难以追溯历史变化,阻碍了宏观市场分析。本数据集通过系统收集、清洗和标准化数据,提供了机器可读的结构化信息,使研究者能够精确量化APC的分布、差异及演变。例如,它证实了混合OA期刊的平均费用显著高于金色OA期刊,为探讨‘双重收费’问题提供了实证基础,并支持了对出版公平性、成本效益及政策影响的学术辩论。
实际应用
在实际应用中,APC价格数据集为图书馆馆藏发展、机构预算规划及出版协议谈判提供了数据支撑。图书馆员可利用该数据集估算年度APC支出,优化订阅与开放获取资金的分配,例如在制定‘阅读与出版’协议时参考历史价格趋势。此外,资助机构和大学管理部门可借助数据评估出版成本效益,制定更合理的开放获取政策。数据集还助力商业智能分析,如出版咨询公司Delta Think使用类似数据提供市场报告,而本数据集的开源特性降低了此类分析的门槛,促进了更广泛的行业透明度。
数据集最近研究
最新研究方向
在开放获取出版领域,APC价格数据集为学术出版市场的成本分析提供了关键数据支撑。该数据集聚焦于六大出版商在2019至2023年间的文章处理费用,揭示了混合开放获取期刊的平均费用显著高于金色开放获取期刊的趋势,这一现象与学术出版市场的垄断结构密切相关。前沿研究方向包括利用该数据集评估读与出版协议的经济影响,分析出版商价格策略的演变,以及探索钻石开放获取期刊的识别方法。近期热点事件如威利出版社收购Hindawi及因学术不端关闭部分期刊,进一步凸显了数据集在监测出版市场动态与诚信问题中的价值。该数据集的开放共享为图书馆馆藏发展、科学计量研究以及政策制定提供了实证基础,推动了开放科学生态系统的透明化与可持续发展。
相关研究论文
- 1An open dataset of article processing charges from six large scholarly publishers (2019-2023)渥太华大学图书馆 · 2024年
以上内容由遇见数据集搜集并总结生成



