OphthalWeChat

Name: OphthalWeChat
Creator: 香港理工大学
Published: 2025-05-26 15:45:42
License: 暂无描述

arXiv2025-05-26 更新2025-05-28 收录

下载链接：

http://arxiv.org/abs/2505.19624v1

下载链接

链接失效反馈

官方服务：

资源简介：

OphthalWeChat是一个大规模的双语（中英）视觉问答（VQA）基准，专为眼科设计。该资源旨在支持在现实眼科场景中对视觉语言模型（VLM）进行开发和严格评估，以实现自动化诊断、医学教育和远程医疗等应用。数据集包括3,469张眼科图像和30,120个问答对，涵盖9个眼科亚专科、29种成像模态和68种模态组合。OphthalWeChat是第一个双语VQA基准，具有现实世界背景，并包含每个患者的多次检查，反映了真实的临床决策场景，并使VLMs的定量评估成为可能，支持开发准确、专业和值得信赖的AI系统，以用于眼科护理。

OphthalWeChat is a large-scale bilingual (Chinese-English) visual question answering (VQA) benchmark designed specifically for ophthalmology. This resource aims to support the development and rigorous evaluation of vision-language models (VLMs) in real-world ophthalmological scenarios, enabling applications such as automated diagnosis, medical education, and telemedicine. The dataset includes 3,469 ophthalmic images and 30,120 question-answer pairs, covering 9 ophthalmic subspecialties, 29 imaging modalities, and 68 modality combinations. OphthalWeChat is the first bilingual VQA benchmark with real-world context, which contains multiple examinations per patient, reflecting authentic clinical decision-making scenarios and enabling quantitative evaluation of VLMs, thus supporting the development of accurate, specialized, and trustworthy AI systems for ophthalmic care.

提供机构：

香港理工大学

创建时间：

2025-05-26

搜集汇总

数据集介绍

构建方式

OphthalWeChat数据集的构建过程包括五个关键步骤：首先从微信公众号收集眼科图像帖子，随后提取并分类图像-标题对，接着利用GPT-4o-mini生成中英双语问答对，经过质量控制和答案平衡调整后，最终形成数据集并完成模型评估。数据来源涵盖2016年至2024年间发布的公开内容，确保数据的多样性和真实性。

使用方法

该数据集主要用于评估视觉语言模型（VLMs）在眼科领域的表现。用户可通过输入图像和对应问题，生成模型回答并评估其准确性。对于封闭式问题，采用准确率作为主要指标；开放式问题则结合BLEU-1和BERTScore评估语义和词汇相似度。数据集支持中英双语测试，适用于自动化诊断、医学教育和远程医疗等应用场景。

背景与挑战

背景概述

OphthalWeChat是由香港理工大学视光学院联合瑞士洛桑联邦理工学院、利物浦大学等机构于2025年推出的首个双语眼科多模态视觉问答基准数据集。该数据集基于微信公众平台2016-2024年公开的眼科图像及图文内容构建，包含3,469幅临床图像和30,120组中英文问答对，覆盖9个眼科亚专科、29种成像模态和548种眼部疾病。作为眼科领域首个融合真实临床场景与多模态影像的评估框架，其创新性体现在三个方面：首次实现中英双语评估体系，突破现有基准单语种限制；首创包含68种模态组合的复杂临床影像评估；建立开放性问题应答评估标准，填补了现有资源在临床推理能力测评方面的空白。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决多模态眼科影像的语义对齐难题，如眼底彩照与OCT图像的跨模态特征关联，以及临床术语的多语言标准化问题；在构建过程中，需克服社交平台数据的异质性处理（如非结构化图文匹配）、诊断相关文本的语义解构（将临床描述转化为可评估的QA对）、以及答案分布偏差校正（原始数据中71.2%二元问题存在'真'答案偏倚）等技术难点。特别在开放性问题评估环节，需平衡自动评分指标（BLEU-1、BERTScore）与临床事实一致性之间的度量矛盾，这对构建可靠的AI临床推理评估体系提出严峻考验。

常用场景

经典使用场景

OphthalWeChat数据集在眼科视觉问答（VQA）领域具有广泛的应用价值，尤其在评估多模态视觉语言模型（VLMs）的性能方面表现突出。该数据集通过整合多种眼科影像模态和双语问答对，为研究者提供了一个标准化的基准测试平台。在临床研究中，OphthalWeChat常用于验证模型在复杂眼科影像解读中的准确性和泛化能力，例如在视网膜病变、青光眼和白内障等疾病的诊断任务中。

解决学术问题

OphthalWeChat数据集解决了眼科领域多模态数据稀缺和标准化评估不足的学术问题。通过涵盖9个眼科亚专科、29种影像模态和68种模态组合，该数据集填补了现有资源在多样性和复杂性上的空白。其双语问答设计进一步支持了跨语言医学AI系统的开发，为研究者在模型优化、多模态融合和临床决策支持系统构建方面提供了重要数据基础。

实际应用

在实际应用中，OphthalWeChat数据集被广泛用于开发智能眼科诊断辅助系统。例如，基于该数据集训练的模型可应用于远程医疗场景，帮助基层医生解读复杂眼科影像；在医学教育领域，其丰富的问答对可用于构建交互式学习工具。此外，数据集中真实世界的临床影像和问题设计，使其成为测试AI系统在真实医疗环境中适用性的理想选择。

数据集最近研究