International Journal of Innovative Science and Research Technology (IJISRT) sneaked references dataset
收藏arXiv2025-01-07 更新2025-01-09 收录
下载链接:
http://arxiv.org/abs/2501.03771v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由瑞典林雪平大学、法国图卢兹第三大学等机构的研究人员创建,主要记录了在《国际创新科学与研究技术杂志》(IJISRT)的元数据中发现的80,205条隐藏引用。这些引用通过Crossref注册,并且所有引用都指向同一期刊,旨在通过引用操纵提升期刊的引用指标。数据集的内容包括从Crossref和PDF文件中提取的引用列表,研究人员通过对比这些列表来识别隐藏引用。数据集的创建过程涉及从Crossref和Dimensions平台获取元数据,并使用Grobid工具从PDF文件中提取引用列表。该数据集的应用领域主要在于检测学术文献中的引用操纵行为,旨在解决引用操纵对学术评价体系的负面影响问题。
This dataset was created by researchers from Linköping University in Sweden, University of Toulouse III - Paul Sabatier in France, and other institutions. It documents 80,205 hidden citations identified in the metadata of the *International Journal of Innovative Science, Research, and Technology* (IJISRT). All these Crossref-registered citations exclusively target this journal, with the intent to inflate the journal's citation metrics via citation manipulation. The dataset construction workflow involved retrieving metadata from Crossref and the Dimensions platform, extracting citation lists from both Crossref records and PDF documents using the Grobid tool, and comparing these lists to pinpoint the hidden citations. The primary application of this dataset is the detection of citation manipulation behaviors in academic literature, aiming to mitigate the negative impacts of such manipulation on academic evaluation systems.
提供机构:
瑞典林雪平大学, 法国图卢兹第三大学, 法国格勒诺布尔阿尔卑斯大学, 哈萨克斯坦Yandex, Crossref, Digital Science
创建时间:
2025-01-07
搜集汇总
数据集介绍

构建方式
该数据集的构建基于对《International Journal of Innovative Science and Research Technology (IJISRT)》期刊中文献的元数据进行分析。研究人员通过Crossref API获取了期刊中所有文章的元数据,并下载了相应的PDF文件。随后,使用Grobid工具从PDF文件中提取参考文献列表,并与Crossref注册的参考文献列表进行对比。通过这种方法,研究人员识别出了80,205条隐藏在元数据中的参考文献,这些参考文献未在正文或参考文献部分列出,但通过Crossref的元数据被注册为引用。
特点
该数据集的主要特点是其揭示了学术文献中一种新的引用操纵形式——‘隐藏引用’。这些引用仅存在于Crossref的元数据中,而未出现在实际文献的参考文献部分。数据集包含了80,205条隐藏引用,这些引用均指向同一期刊,从而人为地提高了该期刊的引用次数。此外,数据集还提供了对这些隐藏引用的详细分析,包括其插入时间、受益文献以及引用次数分布等。
使用方法
该数据集的使用方法主要包括通过对比Crossref注册的参考文献列表与从PDF文件中提取的参考文献列表,识别隐藏引用。研究人员提出了两种自动化方法:M1方法通过比较Crossref和PDF提取的参考文献列表的最后一个元素,识别隐藏引用;M2方法则通过全文匹配,查找Crossref注册的参考文献是否出现在PDF的全文文本中。这些方法可以用于检测其他期刊或文献中的隐藏引用行为,帮助识别引用操纵现象。
背景与挑战
背景概述
国际创新科学与研究技术期刊(IJISRT)的‘偷渡引用’数据集由Lonni Besançon等研究人员于2024年夏季末创建,并于2025年1月8日提交至《信息科学与技术协会期刊》。该数据集揭示了科学文献中一种新型的引用操纵现象,即‘偷渡引用’——这些引用被注册在出版物的元数据中,但并未出现在实际的参考文献列表或全文文本中。研究人员在IJISRT期刊的元数据中发现了80,205条偷渡引用,这些引用均通过Crossref注册,并且全部引用了同一期刊,从而人为提升了该期刊的引用量。该数据集的研究背景涉及科学计量学中的引用操纵问题,尤其是通过元数据操纵来人为提升期刊或论文的引用指标。这一发现对学术界的影响深远,揭示了引用操纵的新途径,并促使学术界重新审视引用指标的可靠性。
当前挑战
该数据集的研究面临多重挑战。首先,偷渡引用的检测需要解决引用元数据与文献实际内容不一致的问题,这要求开发新的自动化方法来比对Crossref注册的引用列表与从PDF文件中提取的引用列表。其次,构建数据集的过程中,研究人员面临数据获取与处理的复杂性,包括从Crossref和PDF文件中提取引用列表的技术难题,以及处理Grobid等工具在提取引用时可能产生的误差。此外,偷渡引用的检测方法需要在准确性与可扩展性之间取得平衡,以便在大规模文献中有效识别此类引用操纵行为。最后,偷渡引用的存在对科学计量学指标(如h指数、期刊影响因子等)的可靠性提出了挑战,如何在不影响正常引用行为的前提下识别并纠正此类操纵行为,是未来研究的重要方向。
常用场景
经典使用场景
IJISRT sneaked references数据集在学术文献的元数据分析中具有重要应用。该数据集主要用于检测和识别学术文献中的‘偷引’行为,即某些引用被隐藏在文献的元数据中,而未在正文或参考文献部分明确列出。通过该数据集,研究人员可以评估不同的自动化检测方法,比较Crossref注册的引用列表与从PDF文件中提取的引用列表,从而识别出这些隐藏的引用。这一数据集为研究学术文献中的引用操纵行为提供了重要的数据支持。
解决学术问题
IJISRT sneaked references数据集解决了学术研究中引用操纵行为的检测问题。引用操纵行为,尤其是通过隐藏引用在元数据中,会人为地提高某些期刊或文章的引用次数,进而影响学术评价指标(如h指数、期刊影响因子等)。该数据集通过提供大量隐藏引用的实例,帮助研究人员开发自动化工具来识别这些不正当的引用行为,从而维护学术评价体系的公正性和准确性。
衍生相关工作
IJISRT sneaked references数据集衍生了一系列相关研究工作,尤其是在引用操纵行为的检测和预防领域。基于该数据集,研究人员开发了多种自动化检测方法,如M1和M2,用于比较Crossref注册的引用列表与从PDF文件中提取的引用列表。此外,该数据集还推动了大规模引用操纵行为的系统性研究,帮助学术界更好地理解引用操纵的模式和影响,并为制定相关政策和规范提供了数据支持。
以上内容由遇见数据集搜集并总结生成



