ZhongJing-OMNI|中医数据集|多模态数据数据集
收藏ZhongJing-OMNI: 首个评估中医知识的多模态基准数据集
ZhongJing-OMNI 是首个用于评估大型语言模型中中医知识的多模态基准数据集。该数据集提供了多种类型的问题和多模态数据,结合视觉和文本信息,评估模型在复杂中医诊断和治疗场景中的推理能力。通过将中医文本知识与多模态舌诊数据相结合,该数据集为中医领域的AI研究设定了新的标准。
关键多模态特征:
- 选择题:涵盖中医核心概念、证候、诊断和草药配方。
- 开放式问题:专注于详细的诊断推理、治疗策略和中医原理的解释。
- 基于案例的问题:需要深入分析和综合治疗方案的真实临床案例。
- 多模态舌诊问答:高分辨率舌部图像与相应的诊断问题和专家答案配对,结合视觉和文本数据,评估模型对中医舌诊的理解。
该多模态数据集允许AI系统通过整合文本推理和视觉诊断技能,更深入、更全面地理解中医,成为医疗AI研究的重要资源。
数据集结构
MCQ/
:选择题及其答案。OpenQA/
:开放式问题及其详细答案。CaseQA/
:基于临床案例的问题和答案。TongueDiagnosis/
:高质量舌诊图像及其配对的问答数据。
如何使用
1. 克隆仓库:
bash git clone https://github.com/pariskang/ZhongJing-OMNI.git
2. 加载数据集:
python import pandas as pd
加载选择题数据
mcq_data = pd.read_csv(MCQ/questions.csv)
加载开放式问答数据
openqa_data = pd.read_csv(OpenQA/questions.csv)
加载基于案例的问答数据
caseqa_data = pd.read_csv(CaseQA/questions.csv)
加载舌诊问答数据(多模态数据)
tongue_data = pd.read_csv(TongueDiagnosis/tongue_questions.csv)
3. 多模态舌诊示例:
python from PIL import Image
加载并显示一个舌诊图像示例
img = Image.open(TongueDiagnosis/images/tongue001.png) img.show()
加载相应的问答数据
with open(TongueDiagnosis/questions/tongue001_question.txt, r) as file: question = file.read() print(f"Question: {question}")
with open(TongueDiagnosis/answers/tongue001_answer.txt, r) as file: answer = file.read() print(f"Answer: {answer}")
为什么多模态?
ZhongJing-OMNI数据集引入了首个中医多模态组件,结合视觉和文本数据,这对于理解复杂的诊断特征(如舌色、形状和舌苔)至关重要。这使得模型能够:
- 学习如何整合视觉诊断特征与文本知识。
- 通过两种模态的联合推理来达到准确的中医诊断。
- 支持现实临床应用,其中视觉和文本数据是交织在一起的。
舌诊示例:气虚伴淡舌
该图像显示了一个淡色、略微肿胀的舌头,带有薄白舌苔。这些特征是中医气虚的典型表现。
此示例展示了使用Claude-3.5-Sonnet模型从我们的数据集中得出的实际测试结果。它展示了模型准确识别和描述中医舌诊图像关键特征的能力。
联系
如有问题或合作,请联系:Email: ylkan21@m.fudan.edu.cn
引用
如果您在研究或项目中使用ZhongJing-OMNI,请按如下方式引用:
@dataset{zhongjing_omni_2024, title = {ZhongJing-OMNI: The First Multimodal Benchmark for Evaluating Traditional Chinese Medicine}, author = {Kang, Yanlan}, year = {2024}, publisher = {GitHub}, journal = {GitHub repository}, url = {https://github.com/yourusername/ZhongJing-OMNI} }

中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
开源PHM数据集
本文分享了一个全球各大学、研究机构和公司捐赠的PHM(Prognostics and Health Management)开源数据集,涵盖加工制造、轨道交通、能源电力和半导体等行业的多种场景,包含部件级、设备级和产线级数据。用户可以利用这些数据开发智能分析和建模算法,数据集分类包括故障诊断、健康评估和寿命预测。
github 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
Houston2013, Berlin, Augsburg
本研究发布了三个多模态遥感基准数据集:Houston2013(高光谱和多光谱数据)、Berlin(高光谱和合成孔径雷达数据)和Augsburg(高光谱、合成孔径雷达和数字表面模型数据)。这些数据集用于土地覆盖分类,旨在通过共享和特定特征学习模型(S2FL)评估多模态基线。数据集包含不同模态和分辨率的图像,适用于评估和开发新的遥感图像处理技术。
arXiv 收录