WITHDRARXIV

Name: WITHDRARXIV
Creator: 宾夕法尼亚大学
Published: 2024-12-05 07:36:23
License: 暂无描述

arXiv2024-12-05 更新2024-12-07 收录

下载链接：

https://github.com/darpa-scify/withdrarxiv

下载链接

链接失效反馈

官方服务：

资源简介：

WITHDRARXIV是由宾夕法尼亚大学和arXiv.org合作创建的第一个大规模撤稿研究数据集，包含超过14,000篇从arXiv撤回的论文及其相关的撤稿评论，涵盖了arXiv整个历史至2024年9月。数据集通过仔细分析作者评论，开发了一个全面的撤稿原因分类法，识别出10个不同的类别。数据集的创建旨在通过自动分类撤稿原因，提高科学质量控制和自动化验证系统的效率，特别适用于科学可行性研究、声明验证和自动定理证明等领域。

WITHDRARXIV is the first large-scale retraction research dataset co-created by the University of Pennsylvania and arXiv.org. It encompasses over 14,000 retracted papers from arXiv alongside their associated retraction comments, covering the entire history of the platform up to September 2024. Through meticulous analysis of author comments, the dataset integrates a comprehensive taxonomy of retraction reasons, which distinguishes 10 distinct categories. Designed to enhance the efficiency of scientific quality control and automated validation systems through automatic classification of retraction reasons, this dataset is particularly suitable for applications in fields such as scientific feasibility research, claim verification, and automated theorem proving.

提供机构：

宾夕法尼亚大学

创建时间：

2024-12-05

搜集汇总

数据集介绍

构建方式

WITHDRARXIV数据集的构建过程严谨而系统，主要包括四个步骤。首先，通过与arXiv.org合作，收集截至2024年9月19日的所有撤稿文章ID，共计16,460个。其次，从arXiv.org的摘要页面中爬取相关文章的评论、所属领域及版本URL，并通过解析HTML页面提取这些元素，最终形成16,395条数据的初始集。第三，对提取的评论进行分类，使用预训练的文本嵌入模型生成嵌入向量，并利用K-means聚类算法将评论分为10个类别，涵盖从事实错误到政策违规等多种原因。最后，采用gpt-4模型在零样本设置下对评论进行自动分类，确保分类的准确性和效率。

特点

WITHDRARXIV数据集具有多个显著特点。首先，它是首个大规模的arXiv撤稿论文数据集，包含超过14,000篇撤稿论文及其相关评论，覆盖了arXiv的整个历史。其次，数据集通过详细的作者评论分析，构建了一个包含10个类别的撤稿原因分类体系，为研究撤稿现象提供了丰富的视角。此外，数据集还展示了大型语言模型在自动分类撤稿原因方面的有效性，实现了0.9594的加权平均F1分数。最后，数据集的发布还包括一个增强版本WITHDRARXIV-SCIFY，该版本包含解析后的全文PDF脚本，特别设计用于支持科学可行性研究。

使用方法

WITHDRARXIV数据集的应用广泛且多样化。首先，研究人员可以利用该数据集进行撤稿现象的系统性研究，分析不同撤稿原因的分布及其对科学诚信的影响。其次，数据集可用于训练和验证自动撤稿原因分类模型，提升模型在零样本或小样本情况下的分类性能。此外，WITHDRARXIV-SCIFY子集特别适用于科学可行性研究，如科学主张验证、自动定理证明等领域的研究。最后，数据集的发布还考虑了伦理问题，通过排除个人原因撤稿和去除个人身份信息等措施，确保数据使用的负责任和透明性。

背景与挑战

背景概述

WITHDRARXIV数据集由宾夕法尼亚大学和arXiv.org的研究人员共同创建，旨在系统研究计算机科学与STEM领域的撤稿现象。该数据集包含超过14,000篇从arXiv撤回的论文及其相关撤稿评论，时间跨度涵盖了arXiv的整个历史直至2024年9月。通过分析作者的撤稿评论，研究团队开发了一个全面的撤稿原因分类法，识别出10个不同的撤稿类别。此数据集不仅为科学质量控制和自动化验证系统提供了宝贵的见解，还促进了开放科学的发展。

当前挑战

WITHDRARXIV数据集面临的挑战包括：首先，构建过程中需要从arXiv收集大量撤稿文章ID，并进行复杂的评论提取和分类工作。其次，撤稿原因的多样性和复杂性使得自动分类任务充满挑战，尽管研究团队通过零样本分类方法取得了0.9594的加权平均F1分数，但仍需进一步优化以提高分类准确性。此外，数据集的发布涉及伦理问题，如保护作者隐私和避免潜在的尴尬，因此需要采取严格的隐私保护措施。

常用场景

经典使用场景

WITHDRARXIV数据集的经典使用场景在于其对arXiv平台上撤回论文的全面记录和分析。通过该数据集，研究者能够深入探讨撤回论文的原因分类，从而为科学诚信和质量控制提供宝贵的见解。此外，数据集中的撤回评论和相关元数据为自动分类撤回原因提供了丰富的训练数据，支持了零样本学习方法的应用，显著提高了撤回原因分类的准确性。

实际应用

在实际应用中，WITHDRARXIV数据集可用于开发和优化自动化科学质量控制系统。例如，研究机构和出版平台可以利用该数据集训练模型，自动检测和标记可能存在问题的论文，从而减少错误信息的传播。此外，该数据集还可用于教育领域，帮助学生和研究人员理解科学出版的严谨性和撤回机制的重要性。

衍生相关工作

WITHDRARXIV数据集的发布催生了一系列相关研究工作，特别是在科学文献分析和自动化验证领域。例如，基于该数据集，研究者开发了用于科学声明验证的工具，如SciFact和SciFact-open，这些工具利用撤回论文的数据来训练模型，提高声明验证的准确性。此外，数据集还启发了在自动化定理证明和文献综述生成方面的研究，推动了AI在科学研究中的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集