five

ZhongJing-OMNI|中医数据集|多模态数据数据集

收藏
github2024-10-18 更新2024-10-19 收录
中医
多模态数据
下载链接:
https://github.com/pariskang/ZhongJing-OMNI
下载链接
链接失效反馈
资源简介:
ZhongJing-OMNI是第一个用于评估大型语言模型中中医知识的多模态基准数据集。该数据集提供了多样的问题和多模态数据,结合视觉和文本信息,评估模型在复杂中医诊断和治疗场景中的推理能力。通过结合中医文本知识和多模态舌诊数据,该数据集为中医领域的AI研究设定了新的标准。
创建时间:
2024-10-18
原始信息汇总

ZhongJing-OMNI: 首个评估中医知识的多模态基准数据集

ZhongJing-OMNI 是首个用于评估大型语言模型中中医知识的多模态基准数据集。该数据集提供了多种类型的问题和多模态数据,结合视觉和文本信息,评估模型在复杂中医诊断和治疗场景中的推理能力。通过将中医文本知识与多模态舌诊数据相结合,该数据集为中医领域的AI研究设定了新的标准。

关键多模态特征:

  • 选择题:涵盖中医核心概念、证候、诊断和草药配方。
  • 开放式问题:专注于详细的诊断推理、治疗策略和中医原理的解释。
  • 基于案例的问题:需要深入分析和综合治疗方案的真实临床案例。
  • 多模态舌诊问答:高分辨率舌部图像与相应的诊断问题和专家答案配对,结合视觉和文本数据,评估模型对中医舌诊的理解。

该多模态数据集允许AI系统通过整合文本推理和视觉诊断技能,更深入、更全面地理解中医,成为医疗AI研究的重要资源。

数据集结构

  • MCQ/:选择题及其答案。
  • OpenQA/:开放式问题及其详细答案。
  • CaseQA/:基于临床案例的问题和答案。
  • TongueDiagnosis/:高质量舌诊图像及其配对的问答数据。

如何使用

1. 克隆仓库:

bash git clone https://github.com/pariskang/ZhongJing-OMNI.git

2. 加载数据集:

python import pandas as pd

加载选择题数据

mcq_data = pd.read_csv(MCQ/questions.csv)

加载开放式问答数据

openqa_data = pd.read_csv(OpenQA/questions.csv)

加载基于案例的问答数据

caseqa_data = pd.read_csv(CaseQA/questions.csv)

加载舌诊问答数据(多模态数据)

tongue_data = pd.read_csv(TongueDiagnosis/tongue_questions.csv)

3. 多模态舌诊示例:

python from PIL import Image

加载并显示一个舌诊图像示例

img = Image.open(TongueDiagnosis/images/tongue001.png) img.show()

加载相应的问答数据

with open(TongueDiagnosis/questions/tongue001_question.txt, r) as file: question = file.read() print(f"Question: {question}")

with open(TongueDiagnosis/answers/tongue001_answer.txt, r) as file: answer = file.read() print(f"Answer: {answer}")

为什么多模态?

ZhongJing-OMNI数据集引入了首个中医多模态组件,结合视觉和文本数据,这对于理解复杂的诊断特征(如舌色、形状和舌苔)至关重要。这使得模型能够:

  • 学习如何整合视觉诊断特征与文本知识。
  • 通过两种模态的联合推理来达到准确的中医诊断。
  • 支持现实临床应用,其中视觉和文本数据是交织在一起的。

舌诊示例:气虚伴淡舌

气虚淡舌

该图像显示了一个淡色、略微肿胀的舌头,带有薄白舌苔。这些特征是中医气虚的典型表现。

此示例展示了使用Claude-3.5-Sonnet模型从我们的数据集中得出的实际测试结果。它展示了模型准确识别和描述中医舌诊图像关键特征的能力。

联系

如有问题或合作,请联系:Email: ylkan21@m.fudan.edu.cn

引用

如果您在研究或项目中使用ZhongJing-OMNI,请按如下方式引用:

@dataset{zhongjing_omni_2024, title = {ZhongJing-OMNI: The First Multimodal Benchmark for Evaluating Traditional Chinese Medicine}, author = {Kang, Yanlan}, year = {2024}, publisher = {GitHub}, journal = {GitHub repository}, url = {https://github.com/yourusername/ZhongJing-OMNI} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
ZhongJing-OMNI数据集的构建方式独具匠心,它首次将多模态数据引入传统中医(TCM)知识评估领域。该数据集通过整合视觉和文本信息,设计了多种类型的问题,包括多选题、开放式问题、基于案例的问题以及多模态舌诊问答。这些数据不仅涵盖了TCM的核心概念、症候、诊断和草药配方,还通过高分辨率的舌诊图像与相应的诊断问题和专家答案相结合,形成了一个全面且多维度的评估体系。
特点
ZhongJing-OMNI数据集的显著特点在于其多模态性质,这使得AI系统能够通过整合文本推理与视觉诊断技能,更深入、更全面地理解TCM。数据集中的多选题和开放式问题旨在评估模型对TCM理论的掌握程度,而基于案例的问题则要求模型进行深入的临床分析和综合治疗方案的制定。特别是舌诊部分,通过高分辨率图像与文本数据的结合,模型能够学习如何将视觉诊断特征与文本知识相结合,从而实现更准确的TCM诊断。
使用方法
使用ZhongJing-OMNI数据集时,首先通过Git克隆存储库,然后使用Pandas库加载不同类型的数据。例如,可以加载多选题数据、开放式问答数据、基于案例的问答数据以及舌诊的多模态数据。对于多模态舌诊数据,用户可以加载并显示舌诊图像,同时读取相应的问答文本,进行多模态评估。这种使用方法不仅支持模型训练和评估,还为实际临床应用中的视觉和文本数据整合提供了有力支持。
背景与挑战
背景概述
ZhongJing-OMNI数据集是首个用于评估大型语言模型在传统中医(TCM)知识上的多模态基准数据集。该数据集由Kang, Yanlan于2024年创建,旨在通过结合视觉和文本信息,全面评估模型在复杂中医诊断和治疗场景中的推理能力。其核心研究问题是如何有效整合中医文本知识与多模态舌诊数据,以提升AI在中医领域的应用水平。ZhongJing-OMNI的推出,标志着中医AI研究进入了一个新的阶段,为中医诊断和治疗提供了更为全面和深入的评估工具。
当前挑战
ZhongJing-OMNI数据集在构建过程中面临多重挑战。首先,如何有效整合多模态数据,特别是舌诊图像与文本信息的结合,以确保模型能够准确理解和推理中医诊断特征,是一个技术难题。其次,数据集的多样性和复杂性要求模型具备高度的灵活性和深度学习能力,以应对不同类型的中医问题。此外,确保数据集的高质量和专家验证的准确性,也是构建过程中的一大挑战。这些挑战不仅推动了中医AI技术的发展,也为未来的研究提供了丰富的探索空间。
常用场景
经典使用场景
ZhongJing-OMNI数据集的经典使用场景在于评估大型语言模型在中医知识处理中的能力。通过结合视觉和文本信息,该数据集能够全面测试模型在复杂中医诊断和治疗场景中的推理能力。特别是,数据集中的多模态舌诊问答部分,通过高分辨率的舌图像与相应的诊断问题和专家答案相结合,使模型能够深入理解中医舌诊的复杂性。
解决学术问题
ZhongJing-OMNI数据集解决了中医领域中多模态数据处理的关键学术问题。传统中医诊断依赖于复杂的视觉和文本信息,而该数据集通过整合这些信息,为研究者提供了一个标准化的评估工具。这不仅推动了中医知识在人工智能中的应用研究,还为多模态学习方法的发展提供了新的视角和挑战。
衍生相关工作
ZhongJing-OMNI数据集的推出,激发了大量相关研究工作。例如,基于该数据集的模型训练方法研究,探讨了如何更有效地整合视觉和文本数据以提高诊断精度。此外,还有研究致力于开发新的多模态学习算法,以更好地适应中医诊断的复杂需求。这些工作不仅丰富了中医与人工智能交叉领域的研究内容,也为未来的技术发展奠定了基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

开源PHM数据集

本文分享了一个全球各大学、研究机构和公司捐赠的PHM(Prognostics and Health Management)开源数据集,涵盖加工制造、轨道交通、能源电力和半导体等行业的多种场景,包含部件级、设备级和产线级数据。用户可以利用这些数据开发智能分析和建模算法,数据集分类包括故障诊断、健康评估和寿命预测。

github 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

Houston2013, Berlin, Augsburg

本研究发布了三个多模态遥感基准数据集:Houston2013(高光谱和多光谱数据)、Berlin(高光谱和合成孔径雷达数据)和Augsburg(高光谱、合成孔径雷达和数字表面模型数据)。这些数据集用于土地覆盖分类,旨在通过共享和特定特征学习模型(S2FL)评估多模态基线。数据集包含不同模态和分辨率的图像,适用于评估和开发新的遥感图像处理技术。

arXiv 收录