LimitGen

github2025-07-04 更新2025-07-08 收录

下载链接：

https://github.com/yale-nlp/LimitGen

下载链接

链接失效反馈

官方服务：

资源简介：

LimitGen是第一个全面评估LLMs在支持早期反馈和补充人类同行评审方面能力的基准。我们的基准包括两个子集：LimitGen-Syn，一个通过受控扰动论文精心创建的合成数据集，和LimitGen-Human，一个真实人类撰写限制的集合。

LimitGen is the first benchmark that comprehensively evaluates the capabilities of Large Language Models (LLMs) in supporting early-stage feedback and supplementing human peer review. Our benchmark comprises two subsets: LimitGen-Syn, a synthetic dataset meticulously created via controlled perturbations to academic papers, and LimitGen-Human, a collection of real human-written limitations.

创建时间：

2025-06-09

原始信息汇总

LimitGen 数据集概述

数据集简介

名称: LimitGen Benchmark
目的: 评估大型语言模型(LLMs)在识别科研论文局限性方面的能力，旨在支持早期反馈并补充人工同行评审
组成:
- LimitGen-Syn: 通过受控扰动论文创建的合成数据集
- LimitGen-Human: 真实人工撰写的局限性集合

数据集特点

首创性: 首个全面评估LLMs在识别论文局限性方面能力的基准
应用场景: 支持同行评审流程，特别是局限性识别任务

使用方法

1. 局限性生成

执行路径: identification目录
脚本:
- main_human.py: 处理人工撰写子集
- main_syn.py: 处理合成子集(需指定error_type参数)

2. RAG流程

检索相关论文:
- 执行路径: retrieval目录
- 脚本顺序: query_gen.py → search.py → recommendation.py → rerank.py
(可选)使用MMDA预处理PDF
生成参考内容:
- section_locate.py → rewrite.py

3. 评估方法

LimitGen-Syn子集:
- 执行路径: evaluation/syn
- 脚本:
  - aspect_check.py(需指定error_type)
  - subtype_classification.py(需指定error_type)
  - coarse_accuracy.py
  - rating.py(需指定error_type)
LimitGen-Human子集:
- 执行路径: evaluation/human
- 脚本:
  - measure_overlap.py
  - match_calculate.py
  - rating.py

引用信息

bibtex @misc{xu2025llmsidentifycriticallimitations, title={Can LLMs Identify Critical Limitations within Scientific Research? A Systematic Evaluation on AI Research Papers}, author={Zhijian Xu and Yilun Zhao and Manasi Patwardhan and Lovekesh Vig and Arman Cohan}, year={2025}, eprint={2507.02694}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2507.02694}, }

搜集汇总

数据集介绍

构建方式

在人工智能研究领域，科学论文的局限性识别是同行评审的关键环节。LimitGen基准测试通过两种互补方式构建：LimitGen-Syn子集采用受控扰动技术对论文进行系统性修改，人工构建具有特定缺陷的合成数据；LimitGen-Human子集则收集真实科研场景中人类专家撰写的局限性描述，形成自然语言语料库。这种双轨制构建策略既保证了数据多样性，又兼顾了真实场景的复杂性。

使用方法

使用该数据集需遵循模块化评估流程。对于合成子集，通过指定error_type参数运行不同扰动类型的评估脚本，系统会依次执行方面检查、子类型分类和准确性评分；人类子集评估则侧重文本重叠度计算和匹配度分析。实验配置需注意三点：正确设置数据路径、指定待测模型参数，以及根据需求启用检索增强生成（RAG）模块。评估体系包含粗粒度准确率和细粒度评分两个维度，支持全面性能分析。

背景与挑战

背景概述

LimitGen数据集由耶鲁大学自然语言处理团队于2025年7月正式发布，旨在系统评估大型语言模型（LLMs）在科学论文局限性识别方面的能力。作为首个专注于学术论文批判性分析的基准测试，该数据集填补了LLMs在辅助同行评审领域的研究空白。数据集构建者Zhijian Xu等人通过合成数据生成和真实人工标注相结合的方式，创建了包含LimitGen-Syn（基于论文受控扰动生成的合成数据）和LimitGen-Human（人工撰写的真实局限性描述）两个子集的综合评价体系。这项工作为探索LLMs在科研早期反馈和人类评审补充方面的潜力提供了重要基准，对推动学术出版智能化进程具有开创性意义。

当前挑战

LimitGen数据集面临的核心挑战主要体现在两个方面：在领域问题层面，科学论文局限性识别本身具有高度复杂性，需要模型具备深厚的领域知识、逻辑推理能力和批判性思维，这对当前LLMs的语义理解和知识整合能力提出了严峻考验；在构建过程层面，研究团队需平衡合成数据的可控性与真实数据的多样性，既要通过受控扰动确保数据质量，又要保持人工撰写样本的学术严谨性。此外，评价体系的建立同样面临挑战，如何设计既能量化模型表现又能反映实际评审需求的指标，成为数据集有效性的关键制约因素。

常用场景

经典使用场景

在人工智能领域，LimitGen数据集为评估大型语言模型（LLMs）在识别科学研究论文关键局限性方面的能力提供了首个系统性基准。该数据集通过合成子集LimitGen-Syn和真实人类撰写子集LimitGen-Human，为研究者提供了一个全面测试平台，用于验证模型在辅助同行评审中的潜力。

解决学术问题

LimitGen数据集解决了当前研究中缺乏系统性评估LLMs在科学论文局限性识别方面能力的空白。通过构建包含合成扰动和真实人类标注的多样化数据，该数据集为量化模型在早期反馈和辅助同行评审中的表现提供了可靠依据，推动了自动化科研评估工具的发展。

实际应用

该数据集的实际应用场景主要集中在学术出版和科研辅助领域。期刊编辑部可利用基于LimitGen训练的模型对投稿论文进行初步局限性筛查，科研团队则能借助该工具在论文投稿前自我评估研究不足，显著提升学术交流效率和质量。

数据集最近研究