five

FLAWS Dataset

收藏
github2025-12-04 更新2025-12-05 收录
下载链接:
https://github.com/xasayi/FLAWS
下载链接
链接失效反馈
官方服务:
资源简介:
FLAWS数据集是一个用于评估大型语言模型在科学论文中错误识别和定位能力的基准数据集。当前基准包括713篇论文:265篇独特论文,每篇使用GPT 5插入一个错误;448篇独特论文,每篇使用Gemini 2.5 Pro插入一个错误。

FLAWS Dataset is a benchmark dataset for evaluating the ability of large language models to identify and locate errors in scientific papers. The current benchmark includes 713 papers in total: 265 unique papers, each with one error inserted by GPT-5, and 448 unique papers, each with one error inserted by Gemini 2.5 Pro.
创建时间:
2025-11-27
原始信息汇总

FLAWS 数据集概述

数据集基本信息

数据集内容与规模

  • 数据总量:包含 713 篇论文的错误插入样本。
  • 数据构成
    • 265 篇独立论文,每篇使用 GPT 5 插入一个错误。
    • 448 篇独立论文,每篇使用 Gemini 2.5 Pro 插入一个错误。
  • 数据获取:基准数据集托管于 Hugging Face,可通过 FLAWS Dataset 下载。

基准评估与模型排名

已使用逻辑回归系数 β_j 对五个前沿 LLM 进行了评估排名,该系数衡量了模型识别错误的性能。

识别模型 排名 分数 β_j Accuracy @k=3 Accuracy @k=10
GPT 5 1 2.10 19.2% 39.1%
Deepseek Reasoner v3.1 2 1.90 16.3% 35.2%
Grok 4 3 1.68 16.3% 23.4%
Claude Sonnet 4.5 4 1.47 12.6% 21.5%
Gemini 2.5 Pro 5 1.41 15.7% 19.8%

框架与工具功能

1. 错误插入流程

  • 输入:LaTeX 源文件(置于 data/papers/ 目录下)。
  • 步骤
    1. 从论文中提取主张。
    2. 为指定主张生成错误。
    3. 过滤无效或琐碎的错误。
    4. 将有效错误插入原始 LaTeX 源文件。
    5. 定位与错误相关的所有文本摘录。
    6. 使用相同 LLM 进行自我识别,以过滤掉过于容易识别的错误。
    7. 如果错误未被过滤,则编译生成修改后的 PDF。

2. 错误识别与评估流程

  • 对单个论文-错误对进行错误识别和评估。

3. 批量处理

  • 支持使用 batching_pipeline_gemini.pybatching_pipeline_openai.py 脚本进行批量错误插入与评估。

环境与依赖

扩展与自定义

  • 评估新模型:修改 src/evaluate_llm.py 中的 model_family_identificationmodel_identification 参数。
  • 添加新模型提供商:在 src/utils/llm_calls.pycompletion_response 函数映射中添加新条目。
  • 下载论文:通过修改 src/download_papers.py 中的 OpenReview 凭据和会议 ID,可从特定会议下载论文。
搜集汇总
数据集介绍
main_image_url
构建方式
在科学文献审校领域,FLAWS数据集的构建采用了系统化的人工智能辅助流程。该数据集基于265篇独立学术论文,通过GPT-5模型植入了265个特定错误,同时利用Gemini 2.5 Pro模型在另外448篇论文中植入了对应错误,最终形成包含713篇论文-错误对的基准集合。构建过程首先从论文的LaTeX源文件中提取科学主张,随后针对选定主张生成语义连贯的错误表述,并通过多级过滤机制剔除无效或过于简单的错误实例。对于通过筛选的错误,系统会将其精准嵌入原始文献的对应位置,并自动定位所有相关的文本片段,最终生成包含人工错误的可编译PDF文档,从而模拟真实学术写作中可能出现的各类问题。
特点
FLAWS数据集的核心特点在于其高度结构化的错误标注体系与多模型对比框架。数据集不仅提供了精确到句子级别的错误定位信息,还完整保留了原始论文与修改后版本的LaTeX源码及PDF文档,支持细粒度的文本对比分析。该基准涵盖了由两种前沿大语言模型生成的错误类型,为评估模型在不同错误生成模式下的鲁棒性提供了天然实验场。数据集中每个错误实例均经过自识别过滤机制处理,确保所植入错误的挑战性达到合理阈值,避免了因错误过于明显而导致评估失准的问题。这种设计使得该数据集能够有效衡量大语言模型在复杂科学语境下的错误检测与定位能力。
使用方法
研究人员可通过Hugging Face平台直接获取完整的基准数据集,按照文档指引将数据文件夹放置于项目结构的指定位置即可开始评估工作。数据集的使用主要围绕错误识别能力评测与自定义错误植入两大功能展开。对于模型评估,用户可通过修改`src/evaluate_llm.py`中的模型家族与具体模型参数,快速测试不同大语言模型在数据集上的表现,系统会自动生成包含逻辑回归系数β_j的量化评估报告。若需扩展新的模型提供商,只需在`src/utils/llm_calls.py`中实现对应的API调用函数即可融入现有框架。对于错误植入功能,用户可将自有论文的LaTeX源码置于指定目录,通过单篇处理或批量处理脚本,利用提供的管道系统实现从主张提取、错误生成到最终PDF编译的全流程自动化操作。
背景与挑战
背景概述
在科学文献质量保障与人工智能辅助审校的交叉领域,FLAWS数据集应运而生,其全称为“Fault Localization Across Writing in Science”。该数据集由相关研究团队于近期构建,旨在为科学论文中的错误识别与定位任务提供一个系统化的基准测试平台。数据集的核心研究问题聚焦于评估大型语言模型在复杂学术文本中检测并定位人为插入错误的能力,这直接关联到自动化科研审稿、学术诚信维护以及智能写作辅助等前沿应用。通过构建包含713篇论文及其对应错误标注的语料库,FLAWS不仅推动了模型在细粒度语义理解方面的技术进步,也为衡量AI系统在真实学术场景下的推理可靠性设立了新的标准。
当前挑战
FLAWS数据集所针对的科学论文错误识别任务本身即蕴含多重挑战。学术文本通常包含专业术语、复杂逻辑与隐含知识,模型需在深层次理解科学主张的基础上,区分细微的语义偏差与事实性错误,这对模型的领域知识与推理能力提出了极高要求。在数据集构建过程中,研究团队面临的主要挑战在于如何设计自动化错误插入管道,以确保生成错误的多样性与真实性,避免产生过于简单或不符合科学语境的无意义干扰。同时,对插入错误进行有效过滤与评估,保证数据质量与任务难度之间的平衡,亦是构建过程中的关键难点。
常用场景
经典使用场景
在科学文献质量控制的学术探索中,FLAWS数据集为评估大型语言模型在科学论文中的错误识别与定位能力提供了标准化基准。该数据集通过向真实学术论文的LaTeX源码中插入特定错误,构建了包含713篇论文的测试集合,其中每篇论文均含有一个由前沿模型生成的错误。研究者利用这一数据集,能够系统性地测评不同模型在复杂科学语境下发现并精确定位错误的表现,从而推动自动化审稿与学术诚信验证工具的发展。
解决学术问题
该数据集有效应对了科学文献自动化审查领域的关键挑战,即如何量化评估模型对学术文本中细微错误的敏感度与判断力。通过提供结构化的错误插入与评估框架,FLAWS解决了以往研究中缺乏高质量、大规模基准数据的问题,使得模型性能的比较更具可靠性与可复现性。其意义在于为错误检测研究建立了严谨的评估范式,促进了模型在理解科学主张逻辑一致性方面的进步,对提升学术出版的可靠性与效率产生了深远影响。
衍生相关工作
围绕FLAWS数据集,已衍生出一系列专注于科学文本质量评估的经典研究工作。这些工作不仅包括对GPT-5、Gemini 2.5 Pro等前沿模型在错误识别任务上的系统性评测与排名,还延伸至对不同模型家族错误生成模式的比较分析。相关研究进一步探索了错误类型与模型识别难度之间的关联,并尝试将评估框架适配至更广泛的科学子领域,推动了自动化科学事实核查与文献元评审方法学的持续演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作