exHarmony
收藏arXiv2025-02-12 更新2025-02-13 收录
下载链接:
https://github.com/sadjadeb/exHarmony
下载链接
链接失效反馈官方服务:
资源简介:
exHarmony数据集是由Reviewerly和加拿大多伦多大学共同创建的,该数据集基于OpenAlex数据库构建,包含了大量学术论文的元数据,如作者、机构、主题和引用关系。数据集专为解决评审分配问题而设计,覆盖了多个子领域,如人工智能、计算机视觉、信息系统和人类计算机交互等,并提供了三种不同的地面真实集:exHarmony-Authors、exHarmony-Cite和exHarmony-SimCite,以支持多样化的评审分配研究。
The exHarmony dataset was jointly created by Reviewerly and the University of Toronto, Canada. It is constructed based on the OpenAlex database and contains extensive metadata of academic papers, including authors, affiliations, research topics, and citation relationships. The dataset is specifically designed to address the review assignment problem, covering multiple subfields such as artificial intelligence, computer vision, information systems, and human-computer interaction. It provides three distinct ground truth sets: exHarmony-Authors, exHarmony-Cite, and exHarmony-SimCite, to support diversified research on review assignment.
提供机构:
Reviewerly, Toronto ON, Canada; University of Toronto, Toronto ON, Canada
创建时间:
2025-02-12
搜集汇总
数据集介绍

构建方式
exHarmony 数据集的构建基于 OpenAlex 数据库,这是一个开放的学术作品数据库,提供了广泛的学术文章元数据,包括作者、机构、主题和引用关系。数据集采用了弱监督标签的方法,通过将论文的作者和被引用论文的作者视为潜在的审稿人,来评估审稿人分配问题的任务。为了确保审稿人的专业性和多样性,数据集还考虑了拥有超过 N 篇已发表论文的作者,即资深作者。数据集的构建过程还包括了从 OpenAlex 数据库中提取计算机科学领域的论文和作者信息,并对数据进行了筛选和处理,以确保数据的质量和可用性。
特点
exHarmony 数据集具有以下特点:1. 大规模:数据集包含了大量的论文和作者信息,覆盖了广泛的学术领域。2. 多样性:数据集考虑了不同阶段和背景的作者,确保了审稿人分配的多样性和包容性。3. 自监督:数据集采用了弱监督标签的方法,无需人工标注,降低了数据收集的难度和成本。4. 易于维护:数据集的维护只需要更新最新的论文信息,使其能够适应学术研究的发展。
使用方法
exHarmony 数据集可以用于评估和改进审稿人分配问题的任务。研究人员可以使用数据集中的论文和作者信息,来训练和测试不同的审稿人分配方法,并评估这些方法在相关性和多样性方面的表现。数据集还提供了一系列基线方法,包括传统的基于词汇匹配的方法、静态神经嵌入方法和上下文神经嵌入方法,以供研究人员参考和比较。此外,数据集还提供了一套评估指标,包括相关性和多样性指标,以全面评估审稿人分配方法的效果。
背景与挑战
背景概述
学术出版中的同行评审过程对于确保学术工作的质量和可靠性至关重要。然而,为提交的手稿分配合适的审稿人仍然是一个重大挑战。传统的手动方法劳动密集且通常效果不佳,导致非建设性或偏见的评审。本文介绍了exHarmony基准,旨在通过将审稿人分配问题(RAP)重新构想为检索任务来解决这些挑战。利用OpenAlex的大量数据,我们提出了一种新颖的方法,该方法考虑了作者、最相似的专家和引文关系中的多种信号,作为手稿合适审稿人的潜在指标。这种方法使我们能够开发一个标准的基准数据集,用于评估审稿人分配问题,而无需明确的标签。我们评估了各种方法,包括传统的词法匹配、静态神经嵌入和上下文神经嵌入,并引入了评估指标,这些指标在RAP的背景下评估相关性和多样性。我们的结果表明,尽管传统方法的表现相当好,但在学术文献上训练的上下文嵌入表现最佳。这些发现强调了进一步研究以提高审稿人分配的多样性和有效性的重要性。
当前挑战
尽管审稿人分配问题(RAP)对学术出版至关重要,但只有少数努力尝试自动化该过程的一部分,并且综合的、广泛采用的解决方案仍然稀缺。其中一个主要原因是由于审稿人的匿名性和隐私问题,通常无法获得审稿人的数据。在本文中,我们旨在承认RAP所面临的挑战,并提出exHarmony基准来促进对该主题的研究。通过利用OpenAlex的大量数据,我们提供了一个基准,用于评估RAP任务。我们利用一系列实体,包括论文、主题、机构和作者,来获得对该任务的全方位理解。我们通过使用弱监督标签重新定义任务,同时考虑论文的作者和论文中引用的论文的作者,作为潜在审稿人。为了公平地评估RAP任务,我们将任务重新构造成基于他们的先前工作检索那些作者作为潜在审稿人。这使我们能够评估和改进任务,而无需明确的标签。为了避免对我们的基础事实做出强烈的假设,我们在我们提出的数据库中开发了三个不同的基础审稿人集合。我们引入了exHarmony-Authors、exHarmony-Cite和exHarmony-SimCite,它们分别考虑了正在审查的论文的作者、正在审查的论文中引用的论文的作者和最相似的引用论文的作者作为基础审稿人。此外,为了完善这些集合,我们应用了一个已建立作者的过滤器,只包括那些在过去至少发表了N篇论文的作者,以确保审稿人被认为是他们领域的专家。我们将进一步讨论这些数据集的所有六个版本(过滤的和未过滤的)之间的差异。此外,为了基准测试,我们为该任务提供了一系列基线,包括传统的词法匹配方法、基于静态神经嵌入的方法和针对学术推荐的微调预训练语言模型。然而,我们的发现表明,目前的开源方法在实际场景中都无法为该任务提供令人满意的结果,这突出了进一步探索和更深入研究的需求。我们通过将RAP构造成信息检索(IR)任务来区分我们的工作,以便利用现有的IR技术有效地将论文与最相关的审稿人匹配。在这种情况下,论文被视为查询,审稿人被视为要排名的项目。审稿人的推荐不仅仅是简单地找到相关的审稿人。因此,在我们的评估中,我们考虑了审稿人集合的多样性。我们提出了一系列新颖的评估指标,以确保推荐的审稿人包括处于职业生涯不同阶段的个人,以及来自不同机构背景的个人,避免偏见,并促进更公平的评审过程。因此,评估是根据检索的审稿人集合的相关性和多样性进行的。总的来说,我们的贡献如下:- 我们以无需审稿人明确的标签数据的方式重新定义了审稿人分配问题,使其可以有效地进行研究。我们策划了exHarmony,这是一个用于RAP任务的大型数据集,包括三个子集exHarmony-Authors、exHarmony-Cite和exHarmony-SimCite,并将其公开发布在:https://github.com/sadjadeb/exHarmony我们提供了一组评估指标,这些指标考虑了审稿人的专业性与论文的相关性以及审稿人集合的多样性。我们提供了RAP任务在我们的基准上的基线结果,突出了挑战并建议了未来研究的方向。
常用场景
经典使用场景
exHarmony数据集旨在解决学术出版中的一项关键挑战——为提交的论文分配合适的审稿人。传统的手动方法既耗时又往往无效,导致审稿意见缺乏建设性或存在偏见。exHarmony通过将审稿人分配问题(RAP)重新构想为检索任务,利用OpenAlex提供的广泛数据,提出了一种新的方法,该方法考虑了作者、最相似的专家以及引文关系作为论文合适审稿人的潜在指标。
解决学术问题
该数据集解决了在学术出版过程中寻找合适审稿人的难题,这是一个劳动密集型且往往无效的过程。exHarmony通过利用作者、最相似的专家以及引文关系作为论文合适审稿人的潜在指标,有效地解决了这一问题。此外,exHarmony还通过引入新的评估指标来评估审稿人分配问题的相关性和多样性,进一步提高了审稿人分配的有效性和公平性。
衍生相关工作
exHarmony数据集衍生了一系列相关工作,包括对审稿人分配问题的重新定义、基于检索任务的新方法、多样化的审稿人评估指标以及基于学术文献的语境化神经嵌入模型。这些相关工作进一步推动了审稿人分配问题的研究,并为学术出版和学术推荐系统的发展提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



