LOBSTER (Language-Of-study Bias in ScienTific pEer Review)

Name: LOBSTER (Language-Of-study Bias in ScienTific pEer Review)
Creator: 科克大学; 慕尼黑大学; 慕尼黑机器学习中心; 鲁汶大学; 埃尔朗根-纽伦堡大学
Published: 2026-04-08 22:14:36
License: 暂无描述

arXiv2026-04-08 更新2026-04-10 收录

下载链接：

https://github.com/GGLAB-KU/LOBSTER

下载链接

链接失效反馈

官方服务：

资源简介：

LOBSTER是由科克大学等机构构建的首个系统性研究NLP同行评审中语言偏见的标注数据集，包含529条从EMNLP和ACL会议评审中提取的片段，标注了负面偏见、正面偏见或无偏见。数据集通过两阶段采样策略确保覆盖多样化的语言和贡献类型，并采用多专家标注流程保证质量。该数据集旨在量化非英语论文面临的评审偏见，尤其关注不合理跨语言泛化要求等常见模式，为促进公平评审实践提供基准工具。

LOBSTER is the first annotated dataset for systematically studying linguistic bias in NLP peer review, constructed by University College Cork and other institutions. It contains 529 excerpts extracted from the review records of EMNLP and ACL conferences, annotated with negative bias, positive bias, or no bias. The dataset adopts a two-stage sampling strategy to ensure coverage of diverse linguistic styles and contribution types, and employs a multi-expert annotation workflow to guarantee annotation quality. This dataset aims to quantify review bias faced by non-English papers, with particular focus on common patterns such as unreasonable cross-lingual generalization requirements, providing a benchmark tool for promoting equitable peer review practices.

提供机构：

科克大学; 慕尼黑大学; 慕尼黑机器学习中心; 鲁汶大学; 埃尔朗根-纽伦堡大学

创建时间：

2026-04-08

原始信息汇总

LOBSTER 数据集概述

数据集简介

LOBSTER（Language-Of-study Bias in ScienTific pEer Review）是首个用于检测NLP同行评审中语言研究偏见的人工标注数据集。该偏见指审稿人根据论文所研究的语言（而非其科学价值）进行不同评价的倾向。

核心任务

数据集支持三个分类任务：

偏见分类（主要任务）：根据论文标题、摘要和评审片段，将评审片段分类为“负面偏见”、“正面偏见”或“未检测到偏见”。
贡献类型分类：对每篇论文的贡献焦点进行分类（例如，建模、NLP应用、数据与基准测试）。
研究语言检测：使用六类分类法确定每篇论文的语言学范围（例如，单语言、指定多语言等）。

数据规模与构成

标注层统计

标注层	记录数	描述
语言偏见	534	评审片段的偏见标签（其中529条具有标注者共识，5条因需要更深的主题专业知识而无法标注）
贡献类型	100	论文贡献类别
研究语言	100	论文所研究的语言

语料库覆盖范围

会议	论文数	评审数	标注片段数
EMNLP 2023	2,020	6,449	375
EMNLP 2024	1,063	1,425	103
ACL 2025 (Dec–Feb)	2,187	3,756	56
ARR 2024 (Apr–Jun)	464	499	—
COLING/NAACL 2025	410	498	—
EMNLP 2025 (Jun–Aug)	1,762	3,018	—
总计	7,906	15,645	534

偏见标签分布 (n=534)

标签	数量
未检测到偏见	439
负面偏见	73
正面偏见	17
不明确/需要上下文	4
无多数意见	1

模型基准测试结果

在529条具有共识标注的数据上进行三分类（负面偏见、正面偏见、未检测到偏见）评估，主要模型性能如下（Macro F1）：

Gemini 3.1 Pro: 87.37
Grok 4.1 Fast: 79.75
GPT 5.2: 78.29
Claude Opus 4.6: 74.96
DeepSeek V3.2: 66.89
Llama 4 Maverick 17B: 63.94

数据格式与获取

标注数据（黄金标准）：位于 dataset/annotations/ 目录下的JSONL文件（需解压密码为 lobster 的 annotations.zip 文件）。
LLM评估数据：位于 dataset/llm_evaluation/ 目录下（需解压 llm_evaluation.zip），按任务组织。
LLM预测数据：位于 dataset/llm_predictions/ 目录下（需解压 llm_predictions.zip），按会议组织。
完整评审语料库：原始评审语料库（15,645条评审）不随LOBSTER重新分发。需从原始来源下载：
- NLPEERv2（覆盖EMNLP 2023/2024）：https://tudatalib.ulb.tu-darmstadt.de/items/d4a4061b-e4e3-4b1e-a90d-d48a3d69e3c0
- ARR Data Collection Initiative（覆盖ACL 2025, ARR 2024, COLING/NAACL 2025, EMNLP 2025）：https://tudatalib.ulb.tu-darmstadt.de/items/4266a71b-1d5c-40bf-8923-7beec1c5263e

关键研究发现

非英语论文面临的偏见率比纯英语论文高出约40倍。
在所有会议中，负面偏见持续超过正面偏见。
正面偏见集中在多语言论文中：指定多语言论文的偏见评审中约39%为正面偏见，而单一非英语论文为31%，英语论文仅为4%。
识别出四种负面偏见的子类别，其中不合理的跨语言泛化要求是最主要的形式。
偏见模式是结构性的，在所检查的所有六个会议中持续存在。

许可信息

本项目（代码和数据）采用知识共享署名-非商业性使用 4.0 国际许可协议（CC BY-NC 4.0）进行许可：https://creativecommons.org/licenses/by-nc/4.0/

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，同行评审的公平性日益受到关注，语言研究偏见问题尤为突出。LOBSTER数据集的构建采用了严谨的两阶段抽样与人工标注策略，首先从EMNLP 2023、EMNLP 2024和ACL 2025三个公开评审数据源中，通过大语言模型辅助筛选出可能包含偏见的评审片段候选集，随后通过平衡抽样确保覆盖不同语言类型与贡献类型的无偏见样本。最终由具备NLP领域专业背景的标注者，在充分参考论文全文及评审上下文的基础上，对534个评审片段进行了多人标注，经过严格的质量控制与裁决流程，形成了包含529个高质量标注样本的数据集。

使用方法

LOBSTER数据集主要用于开发和评估语言研究偏见的自动检测模型。研究者可将论文标题、摘要与评审文本片段作为输入，训练或提示调优大语言模型，执行三分类（负面偏见、正面偏见、无偏见）或更细粒度的偏见子类别识别任务。该数据集也可支持大规模的实证分析，例如探究偏见在不同语言、论文贡献类型或学术会议中的分布规律。通过应用训练好的检测模型于大规模评审语料，能够量化评估偏见在学术出版生态中的普遍性，为制定更公平的同行评审指南和开发辅助筛查工具提供数据基础。

背景与挑战

背景概述

在自然语言处理领域，同行评审作为科研成果质量评估的基石，其公正性长期受到各类潜在偏见的挑战。LOBSTER数据集由来自科克大学、慕尼黑大学、鲁汶大学等机构的跨学科研究团队于2026年创建，旨在系统性地揭示并量化科学同行评审中存在的语言研究对象偏见。该数据集聚焦于评审人因论文所研究的具体语言（而非其科学价值）而产生差异化评价的现象，首次对自然语言处理会议评审文本中的语言偏见进行了大规模标注与分析。通过构建包含529个标注片段的语料库，并基于15,645篇真实评审的大规模分析，该研究证实了非英语论文面临显著更高的偏见率，为理解学术评价体系中的结构性偏差提供了关键实证依据，推动了计算语言学乃至更广泛科学领域对评审公平性的方法论反思。

当前挑战

LOBSTER数据集致力于解决的核心领域挑战是自动检测与量化科学同行评审中的语言研究对象偏见，这是一个涉及自然语言理解、社会计算与学术伦理的交叉性问题。具体挑战体现在两方面：其一，在问题定义层面，需精准区分基于语言选择的合理学术批评与系统性偏见，这要求模型必须深度理解论文的明确研究范围与主张，而非仅进行表面文本匹配。其二，在数据集构建过程中，面临样本高度不平衡、偏见表达隐晦且与合理批评交织的困境。研究团队采用了两阶段抽样策略，并依赖领域专家在充分查阅论文全文及评审上下文后进行人工标注，以确保标注质量。此外，将模糊或需要额外语境才能判断的案例（标注为‘需要上下文’）排除在最终数据集外，虽保证了标注一致性，但也构成了数据覆盖范围的局限性。

常用场景

经典使用场景

在自然语言处理领域的学术审稿实践中，LOBSTER数据集为系统性地检测和量化语言研究偏见提供了关键资源。该数据集通过标注大量真实审稿意见中的语言偏见实例，构建了一个标准化的评估基准，使得研究者能够训练和验证机器学习模型，以自动识别审稿中针对论文所研究语言的非公正评价。这一场景深刻反映了当前学术出版体系中对非英语语言研究的系统性评估偏差问题，为推进审稿公平性研究奠定了数据基础。

解决学术问题

LOBSTER数据集主要解决了学术同行评审中语言研究偏见的定义、检测与量化难题。它首次将语言偏见明确区分为负面与正面两种形式，并系统性地揭示了审稿人因论文所研究语言（而非其科学价值）而产生评价偏差的现象。该数据集的意义在于突破了以往研究将此类评论笼统归为“弱审稿意见”的局限，为理解偏见的具体表现形式及其在不同语言间的分布差异提供了实证依据，从而推动了计算社会科学与学术出版伦理的交叉研究。

实际应用

该数据集的实际应用场景主要集中于学术出版机构和会议的程序优化。例如，会议程序委员会可利用基于LOBSTER训练的检测模型，对提交的审稿意见进行初步筛查，识别可能包含语言偏见的评论，并提请高级别审稿人或领域主席进行复核。此外，该数据集也可用于开发审稿人培训工具，通过展示具体的偏见案例，帮助审稿人更清晰地理解评审指南中关于公平评价的要求，从而在源头减少偏见的产生，提升整个学术共同体的审稿质量与包容性。

数据集最近研究