Anomaly-citation-detection-dataset-based-on-Aminer

github2024-04-10 更新2024-05-31 收录

下载链接：

https://github.com/AsylumME/Anomaly-citation-detection-dataset-based-on-unarXiv-and-OAG

下载链接

链接失效反馈

官方服务：

资源简介：

我们在Aminer的基础上建造了一个少量带有异常引用标签的数据集，以供进行异常引文检测模型的训练。

We have constructed a small dataset with anomalous citation labels based on Aminer, intended for training models to detect anomalous citations.

创建时间：

2023-11-19

原始信息汇总

数据集概述

数据集名称

Anomaly-citation-detection-dataset-based-on-Aminer

数据集用途

用于训练异常引文检测模型

数据集构建基础

基于Aminer平台

数据集特点

包含少量带有异常引用标签的数据

模型构成

bert
LOF（离群度）
LDA（主题相似度）

搜集汇总

数据集介绍

构建方式

该数据集依托于Aminer学术引用网络，精心构建了一个包含异常引用标签的子集。通过结合多种机器学习算法，如BERT、LOF（离群度）和LDA（主题相似度），数据集不仅涵盖了引用的文本信息，还通过离群度和主题相似度的计算，为每条引用赋予了异常标签，从而为异常引文检测模型的训练提供了丰富的数据基础。

使用方法

该数据集适用于异常引文检测模型的训练与评估。用户可以通过加载数据集，利用BERT模型进行文本特征提取，结合LOF和LDA算法进行离群度和主题相似度的计算，从而构建和优化异常引文检测模型。数据集的标签信息可用于监督学习，帮助模型识别和区分正常与异常引用，提升检测精度。

背景与挑战

背景概述

在学术引用网络的研究领域，异常引用检测是一个关键问题，旨在识别那些不符合常规引用模式的引用行为。基于Aminer平台的异常引用识别数据集，由相关研究人员构建，旨在为异常引文检测模型的训练提供支持。该数据集的创建时间可追溯至Aminer平台的最新更新，主要研究人员或机构通过整合Aminer的学术资源，标注了少量带有异常引用标签的数据，以推动异常引用检测技术的发展。这一数据集的推出，不仅丰富了学术引用网络的研究资源，也为相关领域的算法优化和模型验证提供了宝贵的实验平台。

当前挑战

异常引用检测面临的主要挑战包括：一是如何准确识别和标注异常引用，这需要对学术引用网络有深入的理解和分析；二是构建过程中，如何从海量的学术文献中筛选出具有代表性的样本，并确保其标签的准确性；三是模型的训练和验证，如何在有限的标注数据上实现高效的模型训练，并确保模型在实际应用中的泛化能力。此外，异常引用检测模型的复杂性，如结合BERT、LOF和LDA等多种技术，也增加了模型构建和优化的难度。

常用场景

经典使用场景

在学术引用网络的研究领域中，基于Aminer的异常引用识别数据集为研究者提供了一个独特的资源，用于训练和验证异常引文检测模型。该数据集结合了BERT、LOF和LDA等多种模型，能够有效识别引用网络中的异常行为，如不恰当或误导性的引用。这一经典使用场景不仅提升了引用网络分析的准确性，还为学术诚信的维护提供了技术支持。

解决学术问题

该数据集主要解决了学术引用网络中异常引用的检测问题，这一问题在学术研究中具有重要意义。异常引用可能导致研究结果的误导或学术评价的不公，因此，准确识别这些异常引用对于维护学术诚信和提升研究质量至关重要。通过提供带有异常引用标签的数据集，研究者能够开发更精确的检测模型，从而推动学术引用网络分析领域的进步。

实际应用

在实际应用中，该数据集可广泛应用于学术期刊的审稿系统、学术数据库的管理以及学术评价体系中。例如，期刊编辑可以利用该数据集训练的模型来检测投稿中的异常引用，从而提高审稿的公正性和准确性。此外，学术数据库管理者也可以使用该模型来清理和维护数据库中的引用信息，确保数据的准确性和可靠性。

数据集最近研究