LLM-TB-VQA

Name: LLM-TB-VQA
Creator: 佐治亚大学
Published: 2025-05-01 11:48:12
License: 暂无描述

arXiv2025-05-01 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.00275v1

下载链接

链接失效反馈

官方服务：

资源简介：

LLM-TB-VQA数据集是一个详细的医学依从性视觉问答（VQA）数据集，包含806个自定义标注的结核病（TB）药物监测视频，由临床专家标注。数据集涵盖了积极、消极和模糊的依从性案例。该数据集旨在通过分析患者的面部、药物、摄入水量和吞咽动作等视觉特征，与标题中的相关医疗概念进行关联，以促进视觉和语言特征表示的校准，并提高多模态交互。数据集分为训练集和验证集，以评估模型在药物依从性识别、问答和行为分析方面的性能。

The LLM-TB-VQA dataset is a comprehensive medical adherence visual question answering (VQA) dataset. It contains 806 manually annotated tuberculosis (TB) medication monitoring videos, with annotations completed by clinical experts. The dataset covers positive, negative, and ambiguous adherence cases. This dataset aims to promote the calibration of visual and linguistic feature representations and enhance multimodal interaction by analyzing visual features such as patients' facial expressions, medications, water intake volume, and swallowing movements, and associating these features with relevant medical concepts in the corresponding titles. The dataset is divided into training and validation subsets to evaluate model performance on medication adherence recognition, question answering, and behavior analysis.

提供机构：

佐治亚大学

创建时间：

2025-05-01

搜集汇总

数据集介绍

构建方式

LLM-TB-VQA数据集的构建基于806个经过临床专家标注的结核病患者用药监控视频，涵盖了用药依从性的正面、负面及模糊案例。研究团队采用多学科协作方式，由计算机科学、机器学习专家及公共卫生医师共同开发了一套新的标注框架。视频内容被分类为明确用药、未用药及模糊情况三大类，并通过严格的标注流程确保数据质量。最终数据集包含483个正面案例、226个负面案例及97个模糊案例，并通过合成过采样技术（Adaptive-SMOTE）解决了数据不平衡问题。

使用方法

该数据集主要用于训练和评估基于大型视觉语言模型（LVLM）的用药依从性监测系统。研究人员可通过视频帧的空间-时间特征提取（如LanguageBind编码器）与文本查询的联合建模，实现用药行为的自动化识别与问答。数据集已划分为训练集（70%）和验证集（30%），支持参数高效微调（PEFT）和低秩适应（LoRA）等技术的应用，适用于医疗场景下的零样本学习、行为分析和决策支持任务。

背景与挑战

背景概述

LLM-TB-VQA数据集由美国佐治亚大学的研究团队于2023年创建，旨在通过视觉问答（VQA）技术解决结核病患者的用药依从性监测问题。该数据集包含806个由临床专家标注的患者用药视频，涵盖正面、负面及模糊依从性案例。研究团队采用多学科协作模式，结合计算机视觉与公共卫生专业知识，开发了基于Video-LLaVA的多模态大模型AdCare-VLM。该数据集填补了非洲地区医疗视频标注数据的空白，为数字健康技术在结核病管理中的应用提供了重要基准，其创新性体现在将时空视觉特征与医学概念对齐，显著提升了模型在复杂临床场景中的推理能力。

当前挑战

LLM-TB-VQA面临的核心挑战包括：1) 领域问题层面，医疗VQA需克服细粒度时空特征识别与医学语义对齐的难题，如准确捕捉服药动作与背景模糊视频中的关键帧；2) 数据构建过程中，标注协议缺失导致需开发新型三分类框架（正面/负面/模糊依从性），且视频存在光照差异、隐私保护导致的画面模糊等问题。此外，数据分布不均衡（60%正样本 vs 28%负样本）需采用自适应SMOTE等技术处理，而跨模态预对齐不足则影响模型对长视频时序关系的理解。这些挑战突显了医疗多模态数据标准化与计算资源密集性的双重瓶颈。

常用场景

经典使用场景

LLM-TB-VQA数据集在医疗视觉问答（VQA）领域具有重要应用价值，尤其在肺结核患者药物依从性监测方面。该数据集通过806个临床专家标注的视频样本，涵盖了正面、负面及模糊依从性案例，为模型训练提供了丰富的多模态数据。其经典使用场景包括基于视频的自动药物摄入行为分析，例如通过识别患者面部、药片、饮水动作等视觉特征，结合自然语言问题生成准确的依从性评估结果。

解决学术问题

该数据集解决了医疗VQA领域两大核心问题：一是缺乏高质量标注的结核病药物依从性视频数据集，填补了传统方法依赖静态图像而忽略时序行为的空白；二是通过预对齐视觉-语言表征空间，有效缓解了多模态模型在医疗场景中的幻觉问题。其创新性的标注框架（60%正面/28%负面/12%模糊）为处理临床数据的不确定性提供了标准化范式，显著提升了模型在复杂医疗环境中的泛化能力。

实际应用

在实际医疗场景中，LLM-TB-VQA支持非洲地区远程结核病治疗的视频观察疗法（VOT）。通过自动化分析患者自拍服药视频，该系统可替代传统人工审核，解决医疗资源不足地区的监测难题。例如在乌干达和加纳的临床试验中，该技术已用于51名患者的日常服药行为评估，显著降低了医护人员工作负荷，同时避免了因疲劳导致的判断误差。

数据集最近研究