ZhongJing-OMNI

github2024-10-18 更新2024-10-19 收录

下载链接：

https://github.com/pariskang/ZhongJing-OMNI

下载链接

链接失效反馈

资源简介：

ZhongJing-OMNI是第一个用于评估大型语言模型中中医知识的多模态基准数据集。该数据集提供了多样的问题和多模态数据，结合视觉和文本信息，评估模型在复杂中医诊断和治疗场景中的推理能力。通过结合中医文本知识和多模态舌诊数据，该数据集为中医领域的AI研究设定了新的标准。

ZhongJing-OMNI is the first multimodal benchmark dataset dedicated to evaluating Traditional Chinese Medicine (TCM) knowledge within Large Language Models (LLMs). It provides diverse question sets and multimodal data, integrating visual and textual information to assess models' reasoning capabilities in complex TCM diagnosis and treatment scenarios. By combining TCM textual knowledge and multimodal tongue diagnosis data, this dataset sets a new benchmark for AI research in the field of traditional Chinese medicine.

创建时间：

2024-10-18

原始信息汇总

ZhongJing-OMNI: 首个评估中医知识的多模态基准数据集

ZhongJing-OMNI 是首个用于评估大型语言模型中中医知识的多模态基准数据集。该数据集提供了多种类型的问题和多模态数据，结合视觉和文本信息，评估模型在复杂中医诊断和治疗场景中的推理能力。通过将中医文本知识与多模态舌诊数据相结合，该数据集为中医领域的AI研究设定了新的标准。

关键多模态特征：

选择题：涵盖中医核心概念、证候、诊断和草药配方。
开放式问题：专注于详细的诊断推理、治疗策略和中医原理的解释。
基于案例的问题：需要深入分析和综合治疗方案的真实临床案例。
多模态舌诊问答：高分辨率舌部图像与相应的诊断问题和专家答案配对，结合视觉和文本数据，评估模型对中医舌诊的理解。

该多模态数据集允许AI系统通过整合文本推理和视觉诊断技能，更深入、更全面地理解中医，成为医疗AI研究的重要资源。

数据集结构

MCQ/：选择题及其答案。
OpenQA/：开放式问题及其详细答案。
CaseQA/：基于临床案例的问题和答案。
TongueDiagnosis/：高质量舌诊图像及其配对的问答数据。

如何使用

1. 克隆仓库：

bash git clone https://github.com/pariskang/ZhongJing-OMNI.git

2. 加载数据集：

python import pandas as pd

加载选择题数据

mcq_data = pd.read_csv(MCQ/questions.csv)

加载开放式问答数据

openqa_data = pd.read_csv(OpenQA/questions.csv)

加载基于案例的问答数据

caseqa_data = pd.read_csv(CaseQA/questions.csv)

加载舌诊问答数据（多模态数据）

tongue_data = pd.read_csv(TongueDiagnosis/tongue_questions.csv)

3. 多模态舌诊示例：

python from PIL import Image

加载并显示一个舌诊图像示例

img = Image.open(TongueDiagnosis/images/tongue001.png) img.show()

加载相应的问答数据

with open(TongueDiagnosis/questions/tongue001_question.txt, r) as file: question = file.read() print(f"Question: {question}")

with open(TongueDiagnosis/answers/tongue001_answer.txt, r) as file: answer = file.read() print(f"Answer: {answer}")

为什么多模态？

ZhongJing-OMNI数据集引入了首个中医多模态组件，结合视觉和文本数据，这对于理解复杂的诊断特征（如舌色、形状和舌苔）至关重要。这使得模型能够：

学习如何整合视觉诊断特征与文本知识。
通过两种模态的联合推理来达到准确的中医诊断。
支持现实临床应用，其中视觉和文本数据是交织在一起的。

舌诊示例：气虚伴淡舌

气虚淡舌

该图像显示了一个淡色、略微肿胀的舌头，带有薄白舌苔。这些特征是中医气虚的典型表现。

此示例展示了使用Claude-3.5-Sonnet模型从我们的数据集中得出的实际测试结果。它展示了模型准确识别和描述中医舌诊图像关键特征的能力。

联系

如有问题或合作，请联系：Email: ylkan21@m.fudan.edu.cn

引用

如果您在研究或项目中使用ZhongJing-OMNI，请按如下方式引用：

@dataset{zhongjing_omni_2024, title = {ZhongJing-OMNI: The First Multimodal Benchmark for Evaluating Traditional Chinese Medicine}, author = {Kang, Yanlan}, year = {2024}, publisher = {GitHub}, journal = {GitHub repository}, url = {https://github.com/yourusername/ZhongJing-OMNI} }

AI搜集汇总

数据集介绍

构建方式

ZhongJing-OMNI数据集的构建方式独具匠心，它首次将多模态数据引入传统中医（TCM）知识评估领域。该数据集通过整合视觉和文本信息，设计了多种类型的问题，包括多选题、开放式问题、基于案例的问题以及多模态舌诊问答。这些数据不仅涵盖了TCM的核心概念、症候、诊断和草药配方，还通过高分辨率的舌诊图像与相应的诊断问题和专家答案相结合，形成了一个全面且多维度的评估体系。

特点

ZhongJing-OMNI数据集的显著特点在于其多模态性质，这使得AI系统能够通过整合文本推理与视觉诊断技能，更深入、更全面地理解TCM。数据集中的多选题和开放式问题旨在评估模型对TCM理论的掌握程度，而基于案例的问题则要求模型进行深入的临床分析和综合治疗方案的制定。特别是舌诊部分，通过高分辨率图像与文本数据的结合，模型能够学习如何将视觉诊断特征与文本知识相结合，从而实现更准确的TCM诊断。

使用方法

使用ZhongJing-OMNI数据集时，首先通过Git克隆存储库，然后使用Pandas库加载不同类型的数据。例如，可以加载多选题数据、开放式问答数据、基于案例的问答数据以及舌诊的多模态数据。对于多模态舌诊数据，用户可以加载并显示舌诊图像，同时读取相应的问答文本，进行多模态评估。这种使用方法不仅支持模型训练和评估，还为实际临床应用中的视觉和文本数据整合提供了有力支持。

背景与挑战

背景概述

ZhongJing-OMNI数据集是首个用于评估大型语言模型在传统中医（TCM）知识上的多模态基准数据集。该数据集由Kang, Yanlan于2024年创建，旨在通过结合视觉和文本信息，全面评估模型在复杂中医诊断和治疗场景中的推理能力。其核心研究问题是如何有效整合中医文本知识与多模态舌诊数据，以提升AI在中医领域的应用水平。ZhongJing-OMNI的推出，标志着中医AI研究进入了一个新的阶段，为中医诊断和治疗提供了更为全面和深入的评估工具。

当前挑战

ZhongJing-OMNI数据集在构建过程中面临多重挑战。首先，如何有效整合多模态数据，特别是舌诊图像与文本信息的结合，以确保模型能够准确理解和推理中医诊断特征，是一个技术难题。其次，数据集的多样性和复杂性要求模型具备高度的灵活性和深度学习能力，以应对不同类型的中医问题。此外，确保数据集的高质量和专家验证的准确性，也是构建过程中的一大挑战。这些挑战不仅推动了中医AI技术的发展，也为未来的研究提供了丰富的探索空间。

常用场景

经典使用场景

ZhongJing-OMNI数据集的经典使用场景在于评估大型语言模型在中医知识处理中的能力。通过结合视觉和文本信息，该数据集能够全面测试模型在复杂中医诊断和治疗场景中的推理能力。特别是，数据集中的多模态舌诊问答部分，通过高分辨率的舌图像与相应的诊断问题和专家答案相结合，使模型能够深入理解中医舌诊的复杂性。

解决学术问题

ZhongJing-OMNI数据集解决了中医领域中多模态数据处理的关键学术问题。传统中医诊断依赖于复杂的视觉和文本信息，而该数据集通过整合这些信息，为研究者提供了一个标准化的评估工具。这不仅推动了中医知识在人工智能中的应用研究，还为多模态学习方法的发展提供了新的视角和挑战。

衍生相关工作

ZhongJing-OMNI数据集的推出，激发了大量相关研究工作。例如，基于该数据集的模型训练方法研究，探讨了如何更有效地整合视觉和文本数据以提高诊断精度。此外，还有研究致力于开发新的多模态学习算法，以更好地适应中医诊断的复杂需求。这些工作不仅丰富了中医与人工智能交叉领域的研究内容，也为未来的技术发展奠定了基础。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集