ViDRiP-LLaVA

github2025-05-16 更新2025-05-17 收录

下载链接：

https://github.com/trinhvg/ViDRiP-LLaVA

下载链接

链接失效反馈

官方服务：

资源简介：

ViDRiP-LLaVA是一个用于病理视频诊断推理的多模态模型，包含4,000多个指令式样本，每个样本包括病理视频片段、诊断问题和多轮推理答案。数据集格式为JSON + MP4，并包含符合Croissant标准的元数据以支持结构化使用。

ViDRiP-LLaVA is a multimodal model tailored for pathological video diagnostic reasoning, comprising over 4,000 instruction-following samples. Each sample consists of a pathological video clip, a diagnostic question, and multi-turn reasoning answers. The dataset is formatted in JSON + MP4, and includes metadata compliant with the Croissant standard to support structured usage.

创建时间：

2025-05-07

原始信息汇总

ViDRiP-LLaVA 数据集概述

📌 数据集简介

名称：ViDRiP-LLaVA
类型：病理学视频诊断推理多模态数据集
用途：支持基于指令的诊断推理任务，包含图像块和视频片段
特点：
- 首个针对病理学视频诊断推理的多模态模型
- 采用思维链（CoT）提示技术
- 可生成详细组织学描述和最终诊断

📊 数据集构成

训练集

名称：ViDRiP_Instruct_Train
数据量：4,278个教学视频对
内容：
- 4,000+指令式样本
- 每个样本包含：
  - 病理学视频片段
  - 诊断问题
  - 多轮推理答案
格式：JSON + MP4
存储：
- 主数据：https://huggingface.co/datasets/trinhvg/ViDRiP_Instruct_Train
- 视频数据：约100GB（10个压缩文件）

测试集

名称：ViDRiP_Instruct_Test
用途：基准测试推理性能
存储：
- 数据集：https://huggingface.co/datasets/trinhvg/ViDRiP_Instruct_Test
- 视频数据：https://drive.google.com/drive/folders/1oxZlaJpE7PGDYt32LeoGgIzwEvWdnupY

🤖 相关模型

ViDRiP_LLaVA_video
- 用途：基于视频的诊断推理
- 训练数据：ViDRiP_Instruct_Train
- 适用场景：
  - 医学视觉问答（VQA）
  - 教学解释生成
  - 教育性病理学总结
- 地址：https://huggingface.co/trinhvg/ViDRiP_LLaVA_video
ViDRiP_LLaVA_image
- 用途：基于图像块的诊断提示
- 适用场景：病理学标注和单帧推理
- 地址：https://huggingface.co/trinhvg/ViDRiP_LLaVA_image

⚖️ 许可信息

许可证类型：cc-by-nc-nd-3.0

搜集汇总

数据集介绍

构建方式

在病理学诊断领域，ViDRiP-LLaVA数据集的构建采用了多模态融合的方法，通过整合病理视频片段与结构化指令数据，构建了一个包含4,278个教学视频对的高质量数据集。该数据集以JSON和MP4格式存储，每个样本包含病理视频片段、诊断问题及多轮推理答案，并采用Croissant标准元数据确保结构化使用。数据采集过程严格遵循医学诊断流程，通过链式思维提示技术提炼大语言模型的推理能力，模拟病理学家分析病例的完整认知过程。

特点

作为首个面向病理学视频诊断推理的多模态数据集，ViDRiP-LLaVA具有显著的领域特性。其核心优势在于同时支持单帧图像和视频片段的跨模态分析，每个样本都包含完整的诊断逻辑链条。数据集涵盖4,000余个指令式样本，视频数据规模约100GB，测试集专门用于基准评估。独特的教学视频设计使数据兼具临床诊断价值和医学教育意义，视频内容经过专业分割处理，确保与诊断问题的精确对应。

使用方法

该数据集支持端到端的病理诊断模型开发，用户可通过Hugging Face平台获取训练集与测试集。典型应用场景包括：使用提供的bash脚本进行视频微调训练，通过LoRA技术实现参数高效调优，或利用lmms_eval框架进行基准测试。开发者可运行ViDRiP_LLaVA_trial.py脚本快速体验模型推理功能，也可将评估任务集成到自定义流程中。数据集采用cc-by-nc-nd-3.0许可，需注意合规使用。

背景与挑战

背景概述

ViDRiP-LLaVA数据集由研究团队trinhvg于近期推出，旨在推动病理学领域的多模态诊断推理研究。该数据集构建于LLaVA框架之上，专门针对病理切片视频的指令式诊断分析，包含4278个经过精细标注的教学视频对。其核心价值在于模拟病理医师的临床思维过程，通过链式思维提示技术，将大型语言模型的推理能力迁移至医学视觉分析领域。数据集不仅提供病理视频片段，还整合了诊断问题与多轮推理答案，为开发具有解释性的人工智能辅助诊断系统奠定了数据基础。这一创新性工作填补了病理学视频分析与自然语言处理交叉领域的数据空白，对提升数字病理学的智能化水平具有显著意义。

当前挑战

在解决病理视频诊断推理这一核心问题时，ViDRiP-LLaVA面临三大技术挑战：医学视觉-语言对齐的复杂性要求模型必须精确理解专业术语与显微特征的对应关系；长时序视频分析需要有效捕捉诊断关键帧而避免信息冗余；多轮推理的连贯性维护对模型的逻辑一致性提出更高要求。数据构建过程中，研究团队需克服病理视频标注的专业壁垒，每段视频需由资深病理学家完成多级注释；海量医学视频的存储与处理带来基础设施压力，100GB原始数据的质量控制与标准化需严格流程；此外，在保护患者隐私的前提下平衡数据开放性与伦理要求，也使数据集的共享机制设计面临特殊挑战。

常用场景

经典使用场景

在病理学领域，ViDRiP-LLaVA数据集通过结合图像块和视频片段，为基于指令的诊断推理提供了全新的研究范式。该数据集最经典的使用场景是模拟病理学家分析病例的过程，通过链式思维提示技术，生成详细的组织学描述和最终诊断结果。研究人员可以利用该数据集训练多模态模型，实现从病理视频中提取关键诊断信息，并完成复杂的推理任务。

实际应用

在实际医疗场景中，ViDRiP-LLaVA数据集支持开发智能辅助诊断系统，帮助病理医生提高工作效率和诊断准确性。数据集衍生的模型可应用于远程病理会诊、医学教育培训以及病理报告自动生成等多个场景，特别是在资源有限的地区，这些技术能够弥补专业病理医师不足的缺口。

衍生相关工作

基于ViDRiP-LLaVA数据集，研究社区已经开发出多个创新性工作，包括视频基础诊断推理模型ViDRiP_LLaVA_video和图像基础模型ViDRiP_LLaVA_image。这些工作扩展了LLaVA框架在医学领域的应用，并启发了后续关于多模态医学预训练、病理视频理解等方向的研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集