BioMCD

Name: BioMCD
Creator: 武汉大学，电子科技大学，Metanovas Biotech Inc.
Published: 2025-05-09 11:53:10
License: 暂无描述

arXiv2025-05-09 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.05763v1

下载链接

链接失效反馈

官方服务：

资源简介：

BioMCD数据集是一个大规模的基准数据集，包含13660篇撤稿文章和53411篇控制文章。数据集通过筛选Retraction Watch和PubMed数据库中的撤稿文章，并利用PubMed Central数据库获取全文，构建了正负样本集。数据集内容涵盖了健康科学领域的研究论文，旨在用于检测学术不端行为，如数据捏造、数据篡改和抄袭等。数据集的创建过程包括数据筛选、数据清洗、特征提取等步骤，最终构建了一个包含多维特征的数据集。该数据集可用于开发可扩展、可解释的工具，以保护研究诚信。

The BioMCD dataset is a large-scale benchmark dataset comprising 13,660 retracted articles and 53,411 control articles. It is developed by screening retracted articles from the Retraction Watch and PubMed databases, and retrieving full-text contents via the PubMed Central database to construct positive and negative sample sets. Covering research papers in the field of health sciences, this dataset is intended for the detection of academic misconduct including data fabrication, data tampering, and plagiarism. The dataset construction process includes steps such as data screening, data cleaning, and feature extraction, and ultimately yields a dataset with multi-dimensional features. This resource can be used to develop scalable and interpretable tools to safeguard research integrity.

提供机构：

武汉大学，电子科技大学，Metanovas Biotech Inc.

创建时间：

2025-05-09

原始信息汇总

BMMDetect: A Multimodal Deep Learning Framework for Comprehensive Biomedical Misconduct Detection

基本信息

标题: BMMDetect: A Multimodal Deep Learning Framework for Comprehensive Biomedical Misconduct Detection
作者: Yize Zhou, Jie Zhang, Meijie Wang, Lun Yu
提交日期: 2025年5月9日
arXiv标识符: arXiv:2505.05763v1
DOI: 10.48550/arXiv.2505.05763
领域: 计算机科学 > 机器学习 (cs.LG); 计算与语言 (cs.CL)

摘要

研究背景: 生物医学研究中的学术不端检测因现有方法的算法局限性和分析流程碎片化而具有挑战性。
解决方案: 提出BMMDetect，一个多模态深度学习框架，整合期刊元数据（SJR、机构数据）、语义嵌入（PubMedBERT）和GPT-4o挖掘的文本属性（方法学统计、数据异常）进行全面的手稿评估。
关键创新:
1. 多模态融合特定领域特征以减少检测偏差；
2. 定量评估特征重要性，识别期刊权威指标（如SJR指数）和文本异常（如统计异常值）为主要预测因子；
3. 提供BioMCD数据集，一个包含13,160篇撤稿文章和53,411篇对照文章的大规模基准。
性能: BMMDetect达到74.33% AUC，比单模态基线高8.6%，并展示出在生物医学子领域中的可迁移性。

数据集

名称: BioMCD
规模: 13,160篇撤稿文章和53,411篇对照文章。

性能指标

AUC: 74.33%
性能提升: 比单模态基线高8.6%。

相关链接

PDF链接: View PDF

搜集汇总

数据集介绍

构建方式

BioMCD数据集的构建过程体现了严谨的科学方法论。研究团队通过Crossref Labs API系统性地收集了Retraction Watch数据库中53,716篇健康科学领域的撤稿记录，经过多轮筛选排除了状态为'更正'和'关注声明'的文献，最终保留26,344篇明确因学术不端（伪造、篡改、欺骗）被撤稿的研究论文作为正样本。为确保数据质量，团队进一步通过PubMed API获取全文XML数据，最终形成包含13,160篇完整文本的正样本集。负样本的构建采用三倍配比策略，基于撤稿文献关键词和时间窗口（±1年）在PubMed Central中筛选53,411篇非撤稿文献，这种时空匹配设计有效控制了混杂变量对模型训练的干扰。

使用方法

该数据集支持端到端的学术不端检测研究流程。研究者可通过PubMedBERT模块处理标题文本获得512维语义向量，利用提供的XML解析工具提取GPT-4o生成的方法学特征矩阵，并组合期刊特征表进行多模态建模。数据集已预分割为5折交叉验证子集，支持XGBoost、TabNet等传统算法与BMMDetect框架的对比实验。对于迁移学习任务，建议优先采用标题语义特征（平均AUC 0.6667）与全文统计特征（AUC 0.6780）的组合，该方案在消融实验中表现出最佳稳定性。数据使用时应特别注意样本的时间分布特性，避免因出版年代差异引入模型偏差。

背景与挑战

背景概述

BioMCD数据集由Metanovas Biotech Inc.与武汉大学、电子科技大学的研究团队于2023年联合创建，旨在解决生物医学领域学术不端行为检测的关键问题。该数据集包含13,160篇撤稿论文及53,411篇对照样本，通过整合期刊元数据（SJR指数、机构网络）、语义嵌入（PubMedBERT）及GPT-4o挖掘的文本特征（方法学统计、数据异常），构建了首个多模态生物医学学术不端检测基准。其创新性体现在三方面：一是首次实现领域特异性特征的多模态融合，二是量化了期刊权威指标与文本异常的主导预测作用，三是建立了标准化特征矩阵与迁移学习接口。该数据集推动了《BMMDetect》框架的开发，使生物医学文献的完整性评估AUC达到74.33%，较单模态基线提升8.6%，对规范学术出版生态具有里程碑意义。

当前挑战

BioMCD数据集面临双重挑战：在领域问题层面，需应对生物医学不端行为的复杂表征，包括数据伪造（占比32.7%）、结果篡改（28.4%）及文本抄袭（21.9%）等异构模式，现有单模态检测方法对此类混合型不端的识别准确率不足60%；在构建过程中，遭遇多源数据对齐难题——需协调Retraction Watch的撤稿记录与PubMed全文的XML结构化差异，最终13.8%的候选样本因格式冲突被剔除。此外，负样本选择存在时效性偏差，需通过控制发表年份（±1年）及关键词匹配来平衡数据集，该过程导致原始数据损耗率达18.2%。特征工程阶段，GPT-4o对方法学统计术语的抽取误差（F1=0.712）及期刊h-index的动态更新问题进一步增加了建模复杂度。

常用场景

经典使用场景

BioMCD数据集在生物医学学术不端检测领域具有重要应用价值。该数据集通过整合13,160篇撤稿文献和53,411篇对照文献，构建了多模态特征矩阵，包括期刊元数据、语义嵌入和文本属性等维度。研究人员可以利用该数据集开发先进的深度学习模型，系统性地检测生物医学文献中的数据伪造、篡改和抄袭等学术不端行为。数据集特别适用于评估模型在识别方法学异常、统计异常和引用异常等方面的性能。

解决学术问题

BioMCD数据集有效解决了生物医学领域学术不端检测中的关键科学问题。首先，它克服了传统单模态检测方法的局限性，通过多特征融合显著降低了检测偏差。其次，数据集提供的定量特征重要性评估揭示了期刊权威指标（如SJR指数）和文本异常（如统计离群值）是预测学术不端的主导因素。最重要的是，该数据集为标准化的跨学科比较研究提供了基准，推动了可解释、可扩展的学术诚信保障工具的发展。

实际应用

在实际应用层面，BioMCD数据集已被成功应用于期刊审稿系统和科研管理机构。基于该数据集开发的BMMDetect系统能够自动扫描投稿文献，识别潜在的方法学缺陷和统计异常，为编辑提供决策支持。此外，科研诚信办公室利用该数据集构建的监测系统，可定期筛查已发表文献，及时发现可能的学术不端行为。这些应用显著提高了生物医学文献的质量管控效率，降低了人工审核成本。

数据集最近研究