BUAADreamer/llava-med-zh-instruct-60k
收藏Hugging Face2024-05-21 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/BUAADreamer/llava-med-zh-instruct-60k
下载链接
链接失效反馈官方服务:
资源简介:
这个中文数据集是从llava-med翻译而来,使用了Qwen1.5-14B-Chat模型,并包含了60k的医疗视觉指令数据点。数据集的特征包括消息和图像的结构,消息包含角色和内容,图像为序列图像。数据集包含一个训练集,大小为6664412158.42字节,包含56649个样本。下载大小为6567484534字节,数据集总大小为6664412158.42字节。数据集的任务类别包括视觉问答和图像到文本,语言为中文,标签涉及医疗和生物学,数据集规模在10K到100K之间。
这个中文数据集是从llava-med翻译而来,使用了Qwen1.5-14B-Chat模型,并包含了60k的医疗视觉指令数据点。数据集的特征包括消息和图像的结构,消息包含角色和内容,图像为序列图像。数据集包含一个训练集,大小为6664412158.42字节,包含56649个样本。下载大小为6567484534字节,数据集总大小为6664412158.42字节。数据集的任务类别包括视觉问答和图像到文本,语言为中文,标签涉及医疗和生物学,数据集规模在10K到100K之间。
提供机构:
BUAADreamer
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 语言: 中文
- 标签: 医学, 生物学, llama-factory
- 大小类别: 10K<n<100K
数据集内容
- 特征:
- messages:
- role: 字符串类型
- content: 字符串类型
- images: 图像序列
- messages:
数据集分割
- 训练集:
- 示例数量: 56649
- 数据大小: 6664412158.42字节
- 下载大小: 6567484534字节
任务类别
- 视觉问答
- 图像到文本
配置
- 默认配置:
- 数据文件:
- 分割: 训练
- 路径: data/train-*
- 数据文件:
搜集汇总
数据集介绍

构建方式
该数据集基于llava-med项目,通过Qwen1.5-14B-Chat模型进行中文翻译,构建了一个包含60,000条医学视觉指令数据的中文数据集。数据集的构建过程涉及从原始英文数据到中文的精准翻译,确保了医学专业术语的准确性和一致性。
特点
该数据集的特点在于其专注于医学领域的视觉问答和图像到文本的转换任务,涵盖了丰富的医学图像和对应的中文指令。数据集中的每条记录包含角色和内容信息,以及相关的图像序列,适用于多模态学习任务。此外,数据集的规模适中,适合用于训练和验证医学领域的多模态模型。
使用方法
用户可以通过LLaMA Factory工具加载该数据集,指定--dataset llava_med_zh_60k参数即可使用。数据集的格式遵循ShareGPT标准,包含messages和images两个主要字段,分别用于存储对话内容和图像数据。用户可以根据需要调整数据集的配置,以适应不同的训练和推理任务。
背景与挑战
背景概述
BUAADreamer/llava-med-zh-instruct-60k数据集是一个专注于医学领域的视觉问答与图像到文本转换任务的中文数据集。该数据集由北京航空航天大学的研究团队基于微软的LLaVA-Med项目开发,并通过Qwen1.5-14B-Chat模型进行翻译与扩展,最终形成了包含60,000条医学视觉指令数据的资源。其核心研究问题在于如何通过多模态学习提升医学图像与文本之间的交互能力,从而为医学诊断、教育及研究提供支持。该数据集的发布为中文医学多模态研究领域注入了新的活力,推动了相关技术的发展与应用。
当前挑战
该数据集在构建与应用过程中面临多重挑战。首先,医学领域的视觉问答任务要求模型具备高度的专业性与准确性,如何确保模型在复杂的医学图像与文本交互中保持高精度是一个关键问题。其次,数据集的构建依赖于高质量的翻译与扩展,如何在保持原数据语义一致性的同时,适应中文语境与医学术语的复杂性,是构建过程中的一大难点。此外,多模态数据的对齐与融合也带来了技术上的挑战,如何有效整合图像与文本信息以实现高效的多模态学习,仍需进一步探索与优化。
常用场景
经典使用场景
在医学图像分析与自然语言处理的交叉领域,BUAADreamer/llava-med-zh-instruct-60k数据集为研究人员提供了一个丰富的资源,用于训练和评估视觉问答(VQA)和图像到文本生成模型。该数据集通过结合医学图像与对应的中文指令,支持模型在理解复杂医学图像内容的同时,生成准确且符合医学语境的自然语言描述。
解决学术问题
该数据集有效解决了医学领域中视觉问答和图像描述生成的关键问题。通过提供大量标注的医学图像和对应的中文指令,研究人员能够训练出更加精准的模型,提升模型在医学图像理解、疾病诊断辅助以及医学报告自动生成等方面的性能。这对于推动医学人工智能的发展具有重要意义。
衍生相关工作
基于BUAADreamer/llava-med-zh-instruct-60k数据集,已有多个经典研究工作涌现。例如,研究人员利用该数据集开发了基于LLaMA架构的医学视觉问答模型,显著提升了模型在中文医学语境下的表现。此外,该数据集还被用于改进多模态医学图像生成模型,推动了医学图像与自然语言处理技术的深度融合。
以上内容由遇见数据集搜集并总结生成



