LR-bench

Name: LR-bench
Creator: 华东师范大学·数据科学与工程学院
Published: 2026-01-27 22:13:46
License: 暂无描述

arXiv2026-01-27 更新2026-01-29 收录

下载链接：

https://huggingface.co/datasets/Gnociew/LR-bench

下载链接

链接失效反馈

官方服务：

资源简介：

LR-bench是由华东师范大学团队构建的高保真同行评审基准数据集，聚焦2024-2025年AI/NLP领域的最新研究文献。该数据集通过大规模邮件调研收集了1,055条五级自评专家熟悉度评分，涵盖161,228篇arXiv预印本论文和513,877位消歧作者。数据构建采用两阶段流程：先基于语义相似度召回候选审稿人，再通过冲突过滤和标准化评分量表获取高质量标注。其创新性在于直接捕获专家真实判断，解决了传统代理信号（如关键词匹配）的时效性与噪声问题，适用于现代审稿人分配系统的评估与优化。

LR-bench is a high-fidelity peer-review benchmark dataset constructed by the team from East China Normal University, focusing on the latest research literature in the AI/NLP field during 2024-2025. This dataset collects 1,055 five-level self-rated expert familiarity scores through large-scale email surveys, covering 161,228 arXiv preprints and 513,877 disambiguated authors. The dataset construction adopts a two-stage pipeline: first, candidate reviewers are retrieved based on semantic similarity, then high-quality annotations are obtained via conflict filtering and a standardized rating scale. Its innovation lies in directly capturing experts' real judgments, addressing the timeliness and noise issues of traditional proxy signals such as keyword matching, and being applicable to the evaluation and optimization of modern reviewer assignment systems.

提供机构：

华东师范大学·数据科学与工程学院

创建时间：

2026-01-27

原始信息汇总

数据集概述

基本描述

数据集名称: LR-bench
主要语言: 英语 (en)
任务类别: 文本分类 (text-classification)、信息检索 (information-retrieval)
标签: 审稿人分配 (reviewer-assignment)、成对排序 (pairwise-ranking)、偏好数据 (preference-data)

数据内容与结构

该数据集包含用于审稿人分配/匹配的评估数据，数据格式为成对格式，并组织为两个互补的视角：

evaluation_pc (论文中心成对数据): 从论文中心视角构建的成对比较数据（即，针对每篇论文，对候选审稿人进行成对比较）。
evaluation_rc (审稿人中心成对数据): 从审稿人中心视角构建的成对比较数据（即，针对每位审稿人，对候选论文进行成对比较）。

文件结构

evaluation_pc/: 论文中心成对评估数据
evaluation_rc/: 审稿人中心成对评估数据
pointwise/: 点态评估数据（即将发布）

状态与发布计划

点态数据 (pointwise/) 仍在整合中。
预计将在约2-3天内发布点态数据部分。

使用说明

使用此数据集时，请引用此仓库（引用信息后续可在此添加）。
如有问题，请在仓库中提交 GitHub/HF issue。

搜集汇总

数据集介绍

构建方式

在人工智能与自然语言处理领域，审稿人分配任务因研究主题的快速演变而面临评估基准过时的挑战。LR-bench数据集的构建旨在解决这一瓶颈，其核心流程包括多阶段精心策划：首先从arXiv预印本库中筛选2024至2025年间人工智能与自然语言处理领域的近期论文，形成初始语料库；随后通过基于内容的过滤方法为每篇论文检索潜在审稿人候选池，并利用大规模电子邮件调查收集专家自我评估的五级熟悉度评分。这一过程最终产生了1,055对高质量的论文-审稿人-评分标注，确保了数据的高保真度与时效性。

使用方法

LR-bench数据集主要用于评估和推进自动化审稿人分配系统的性能。研究人员可将该数据集作为测试基准，验证不同算法在匹配论文与合适审稿人方面的有效性。具体而言，数据集中提供的论文-审稿人对及其对应的熟悉度评分，可用于计算模型预测的排序损失、精度等指标。此外，其衍生的双重视角偏好元组支持对比学习或排序损失等训练范式，使模型能够学习更稳健的专长空间表示。数据集的发布格式便于在标准评估协议下进行公平比较，为相关领域的研究提供了可靠的实验基础。

背景与挑战

背景概述

LR-bench 是由华东师范大学数据科学与工程学院的研究团队于2025年提出的一个面向同行评审系统中审稿人分配任务的高保真、时效性基准数据集。该数据集旨在应对大语言模型时代下研究主题快速变迁所引发的评估危机，其核心研究问题是构建一个能够准确反映当代研究格局、并基于审稿人自我评估的真实专业熟悉度来评估审稿人-稿件匹配质量的黄金标准。LR-bench 从2024至2025年的人工智能与自然语言处理领域预印本中筛选稿件，并通过大规模邮件调查收集了审稿人对特定稿件的五级自我熟悉度评分，最终形成了1,055个高质量的稿件-审稿人-评分三元组。该数据集的发布为审稿人分配算法的严谨评估提供了关键基础设施，对推动自动化同行评审系统的发展具有显著影响力。

当前挑战

LR-bench 致力于解决的领域核心挑战是审稿人分配中的评估危机与目标错配问题。具体而言，领域内长期缺乏能够反映当下快速演变研究主题的高保真、开源基准，许多基于2023年前数据构建的基准已因分布外问题而失效。同时，现有方法多优化于检索与稿件最相似的论文，而非直接建模审稿人的真实专业熟悉度，导致训练目标与最终推断目标错位。在数据集构建过程中，研究团队面临多重挑战：首先，确保数据时效性与高保真度需从海量预印本中精准筛选近期稿件，并设计大规模邮件调查以直接获取专家自我评估，此过程耗时耗力且响应率管理复杂。其次，构建过程中需处理作者消歧、利益冲突过滤以及数据质量控制等问题，以确保最终标注数据的纯净性与可靠性。

常用场景

经典使用场景

在人工智能与自然语言处理领域，随着学术会议投稿量的激增，审稿人分配已成为确保同行评审质量与效率的核心挑战。LR-bench数据集通过收集2024年至2025年间最新研究论文与审稿人自我评估的熟悉度评分，构建了一个高保真、时效性强的评估基准。该数据集最经典的使用场景在于为审稿人分配算法提供标准化测试平台，研究者可利用其包含的1,055个论文-审稿人-评分三元组，验证模型在真实学术环境下的匹配性能，从而推动自动化审稿系统的发展与优化。

解决学术问题

LR-bench数据集主要解决了审稿人分配领域长期存在的两大关键学术问题。其一，针对评估危机，即过往基准数据集因时间滞后而无法反映当前研究趋势的缺陷，该数据集通过纳入最新论文与直接专家反馈，提供了与时俱进的评估标准。其二，针对训练目标与推理目标错位的问题，数据集支持开发直接建模审稿人专业知识的算法，而非依赖简单的文献相似性聚合，从而提升了匹配的准确性与鲁棒性。其意义在于为相关研究提供了可靠的实证基础，促进了审稿人分配技术向更深层次的语义对齐迈进。

实际应用

在实际应用层面，LR-bench数据集为学术会议与期刊的审稿管理提供了重要支持。基于该数据集训练的模型，如论文中提出的RATE框架，能够自动化地为投稿论文匹配最合适的审稿专家，显著减轻人工分配的工作负担。这不仅提升了审稿流程的效率，还能通过精准的专业知识对齐，确保评审意见的质量与权威性，从而维护学术出版的严谨性与公正性。此外，数据集的高保真特性使其成为开发实际部署系统的关键验证工具。

数据集最近研究