williamliu/ChiMed-VL

Name: williamliu/ChiMed-VL
Creator: williamliu
Published: 2023-12-01 12:37:17
License: 暂无描述

Hugging Face2023-12-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/williamliu/ChiMed-VL

下载链接

链接失效反馈

官方服务：

资源简介：

# ChiMed-VL Dataset ## ChiMed-VL-Alignment dataset ## ChiMed-VL-Alignment consists of 580,014 image-text couplings, each pair falling into one of two categories: context information of an image or descriptions of an image. The context category contains 167M tokens, presenting a median text length of 435 (Q1: 211, Q3: 757). Conversely, descriptions, more concise and image-specific, contain inline descriptions and captions. They comprise 63M tokens, with median lengths settling at 59 (Q1: 45, Q3: 83). ## ChiMed-VL-Instruction dataset ## ChiMed-VL-Instruction comprises 469,441 question-answer pairs. Within this subset, the questions section contains 10M tokens with a median length of 20 (Q1: 16, Q3: 25), posing a concise inquiry reflective of medical queries. The answers consist of 13M tokens with a median length slightly longer at 22 (Q1: 12, Q3: 34), providing clear, direct, and informative responses.

# ChiMed-VL 数据集 ## ChiMed-VL-Alignment 数据集 ## ChiMed-VL-Alignment 数据集包含580,014组图文配对样本，每一组均属于以下两类之一：图像上下文信息，或图像描述文本。其中上下文信息类别的文本总计包含1.67亿个Token（Token），文本长度的中位数为435（四分位距Q1：211，Q3：757）。与之相对的图像描述文本类别更为简洁且贴合图像主题，涵盖内嵌描述与图像字幕，总计包含6300万个Token，文本长度中位数为59（Q1：45，Q3：83）。 ## ChiMed-VL-Instruction 数据集 ## ChiMed-VL-Instruction 数据集包含469,441组问答配对样本。该子集中的问题文本总计包含1000万个Token，文本长度中位数为20（Q1：16，Q3：25），问题表述简洁，贴合医疗查询场景。回答文本总计包含1300万个Token，文本长度中位数略长，为22（Q1：12，Q3：34），所生成的回答清晰直白且信息详实。

提供机构：

williamliu

原始信息汇总

ChiMed-VL Dataset 概述

ChiMed-VL-Alignment 数据集

数据量: 包含580,014个图像-文本对。
内容分类: 分为两类，即图像的上下文信息和图像描述。
上下文信息:
- 文本量: 包含167M tokens。
- 文本长度: 中位数为435，第一四分位数(Q1)为211，第三四分位数(Q3)为757。
图像描述:
- 文本量: 包含63M tokens。
- 文本长度: 中位数为59，第一四分位数(Q1)为45，第三四分位数(Q3)为83。

ChiMed-VL-Instruction 数据集

数据量: 包含469,441个问题-答案对。
问题部分:
- 文本量: 包含10M tokens。
- 文本长度: 中位数为20，第一四分位数(Q1)为16，第三四分位数(Q3)为25。
答案部分:
- 文本量: 包含13M tokens。
- 文本长度: 中位数为22，第一四分位数(Q1)为12，第三四分位数(Q3)为34。

搜集汇总

数据集介绍

构建方式

在医学视觉语言研究领域，ChiMed-VL数据集通过系统整合多源医学图像与文本信息构建而成。其包含ChiMed-VL-Alignment与ChiMed-VL-Instruction两个子集，前者采集了580,014对图像-文本耦合数据，涵盖图像上下文信息与图像描述两类，文本总规模达230M tokens，其中上下文类文本中位长度435，描述类中位长度59；后者则汇集469,441组问答对，问题与答案文本规模分别为10M与13M tokens，中位长度各为20与22，整体构建过程注重医学专业性与数据多样性。

使用方法

研究人员可将该数据集应用于医学视觉语言模型的预训练与微调阶段。对齐子集适用于图像-文本匹配、跨模态表示学习等任务，通过上下文与描述文本的差异促进模型理解医学图像的多元语义。指令子集则可用于指令遵循、医学问答生成等场景，借助其简洁的问题与详实答案优化模型的交互能力。使用时可依据任务需求灵活选取或组合子集，并注意遵循数据划分与评估协议，以保障研究的可复现性与科学性。

背景与挑战

背景概述

在医学人工智能领域，视觉语言模型的发展对提升医疗诊断与教育效率具有深远意义。ChiMed-VL数据集由williamliu团队构建，专注于中文医学视觉语言对齐与指令理解，其核心研究问题在于解决医学图像与文本描述之间的语义鸿沟，促进多模态医学知识的深度融合。该数据集通过大规模图像文本对与问答数据，为医学视觉语言预训练提供了关键资源，推动了中文医疗AI在图像理解、报告生成及临床辅助决策等方向的应用进展。

当前挑战

ChiMed-VL数据集面临的挑战主要体现在两个方面：在领域问题层面，医学图像与文本的对齐需克服专业术语的精确性、病理特征的细微差异以及临床上下文的多义性，这对模型的语义捕捉与推理能力提出了极高要求；在构建过程中，数据收集涉及医疗隐私保护、多源异构数据的标准化整合以及医学专家标注的高成本与一致性维护，这些因素共同增加了数据集构建的复杂性与可靠性保障难度。

常用场景

经典使用场景

在医学视觉语言领域，ChiMed-VL数据集为多模态学习提供了关键支撑。其经典使用场景集中于训练和评估医学图像与文本的联合表示模型，例如通过ChiMed-VL-Alignment子集中的58万余对图像-文本耦合，研究者能够构建高效的跨模态对齐框架，促进模型理解医学图像的视觉特征与相关临床文本之间的语义关联。这类应用常涉及视觉问答、图像描述生成等任务，为医学人工智能的精准化发展奠定数据基础。

解决学术问题

ChiMed-VL数据集有效应对了医学多模态研究中数据稀缺与质量不均的挑战。它通过大规模、高质量的图像-文本对齐和指令数据，解决了跨模态语义对齐、医学视觉语言理解以及领域特定知识融合等核心学术问题。该数据集不仅支持模型学习医学图像的深层视觉模式与文本描述的复杂关联，还推动了多模态预训练技术在医疗领域的适配与优化，对提升诊断辅助系统的解释性与可靠性具有显著意义。

实际应用

在实际医疗场景中，ChiMed-VL数据集的应用潜力广泛。它可用于开发智能医学影像分析系统，辅助医生进行图像解读与报告生成；在临床教育中，支持构建交互式医学视觉问答工具，提升医学培训的效率与沉浸感；此外，该数据集还能赋能远程医疗平台，通过多模态交互增强医患沟通的清晰度与准确性，为个性化医疗决策提供可靠的技术支持。

数据集最近研究