BELO (BEnchmarking LLMs for Ophthalmology)

Name: BELO (BEnchmarking LLMs for Ophthalmology)
Creator: 新加坡国立大学医学院眼科系
Published: 2025-07-21 23:27:32
License: 暂无描述

arXiv2025-07-21 更新2025-07-23 收录

下载链接：

https://belo-dataset.vercel.app/

下载链接

链接失效反馈

官方服务：

资源简介：

BELO是一个由13位眼科专家通过多轮专家检查开发的标准且全面的评估基准，旨在评估眼科相关的临床准确性和推理质量。数据集包含来自五个来源的900个高质量、专家评审的问题，包括BCSC、BioASQ、MedMCQA、MedQA和PubMedQA。数据集的创建过程经历了多轮专家检查和推理修订，以确保其质量和可靠性。BELO旨在为评估当前和新兴的眼科LLM的准确性和推理能力提供一个稳健且临床相关的基准。

BELO is a standardized and comprehensive evaluation benchmark developed by 13 ophthalmology experts via multi-round expert reviews, designed to assess the clinical accuracy and reasoning quality related to ophthalmology. The dataset contains 900 high-quality, expert-reviewed questions from five sources: BCSC, BioASQ, MedMCQA, MedQA, and PubMedQA. Its development process has undergone multiple rounds of expert reviews and reasoning revisions to ensure its quality and reliability. BELO aims to provide a robust and clinically relevant benchmark for evaluating the accuracy and reasoning capabilities of both current and emerging ophthalmology-focused large language models (LLMs).

提供机构：

新加坡国立大学医学院眼科系

创建时间：

2025-07-21

搜集汇总

数据集介绍

构建方式

BELO数据集的构建采用了多阶段专家校验的严谨流程，通过关键词匹配与微调PubMedBERT模型相结合的方法，从BCSC、MedMCQA等五大医学数据集中筛选眼科特异性多选题。初始提取的900道题目经过四轮专家评审，包括两名验光师和十二位眼科医师的逐题核查，剔除重复或低质量题目，并对132道题目进行了临床推理内容的精细化修订，最终形成具有黄金标准解释的高质量题库。

使用方法

BELO作为评估专用基准，支持零样本测试框架下的多维度模型验证。研究者可通过标准化提示模板输入题目，要求模型以JSON格式返回答案及推理过程。评估体系包含准确率、宏F1值等传统指标，以及ROUGE-L、BERTScore等五项文本生成指标，配套的公开排行榜（https://belo-dataset.vercel.app/）支持横向性能比较。值得注意的是，数据集采用保留机制禁止训练用途，确保评估结果的公正性与可复现性。

背景与挑战

背景概述

BELO（BEnchmarking LLMs for Ophthalmology）数据集是由新加坡国立大学、新加坡眼科研究所、耶鲁大学医学院等多家机构的研究团队联合开发的眼科领域专用基准测试集，旨在评估大型语言模型（LLMs）在眼科知识和临床推理方面的能力。该数据集创建于2024年，包含900道经过多轮专家审核的高质量多选题，涵盖从基础科学到临床实践的广泛眼科主题。BELO的独特之处在于它不仅评估模型的答案准确性，还通过专家撰写的标准解析来评估模型的推理质量，填补了现有医学基准测试在眼科领域的空白。该数据集整合了来自BCSC、MedMCQA等五个权威医学题库的题目，并通过分层抽样和人工校验确保内容的代表性和临床相关性。

当前挑战

BELO数据集面临的挑战主要体现在两个方面：领域问题方面，眼科医学具有高度专业化的术语体系和复杂的临床决策逻辑，现有通用医学基准测试难以准确评估模型对青光眼、视网膜病变等专科知识的掌握程度；构建过程方面，团队需要解决多源数据整合的标准化难题（如不同题库的选项数量差异），并通过13位眼科专家的多轮校验来消除过时内容（4.4%题目需替换）和低质量解析（10.2%题目需重写）。此外，使用PubMedBERT模型从18万+非眼科题目中精准筛选眼科内容时，即使结合关键词匹配和深度学习，仍面临3.8%的误判率。这些挑战使得构建过程耗时超过6个月，涉及20余位医学专家的协作。

常用场景

经典使用场景

BELO数据集在眼科领域的大语言模型评估中展现出卓越的应用价值。该数据集通过整合来自BCSC、MedMCQA等多个权威医学题库的900道眼科多选题，构建了一个标准化评估框架。其经典使用场景主要体现在对GPT-4o、Llama-3等主流大语言模型进行眼科知识掌握度和临床推理能力的系统性测试。在模型评估过程中，研究者可同时考察模型在答案准确性和推理逻辑性两个维度的表现，这种双重评估机制为眼科AI研究提供了前所未有的精细度量标准。

解决学术问题

BELO有效解决了眼科AI领域长期存在的三大核心问题：首先，填补了专业眼科评估基准的空白，通过专家多轮校验确保问题质量；其次，突破了传统评估仅关注答案准确率的局限，创新性地引入ROUGE-L、BERTScore等五项文本生成指标量化推理质量；最后，其标准化的评估流程解决了既往研究因使用非标准化数据集导致的模型性能不可比问题。这些突破使得眼科大语言模型的评估首次具备了临床可信度和学术可重复性。

实际应用

在实际医疗场景中，BELO为眼科AI系统的临床落地提供了关键质量保障。医疗机构可基于该基准筛选合格的语言模型，应用于智能分诊、患者教育文档生成等场景。例如，在OpenAI o1模型达到88.2%准确率的青光眼诊断问答中，其生成的解释文本通过BERTScore验证达到0.712分，这种性能验证显著降低了AI辅助诊断的误诊风险。制药企业亦可利用该数据集评估AI系统在药物副作用问答中的可靠性。

数据集最近研究