aisc-team-d1/PMC_Data
收藏Hugging Face2024-03-05 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/aisc-team-d1/PMC_Data
下载链接
链接失效反馈官方服务:
资源简介:
PMC-CaseReport数据集是一个包含医学案例报告的视觉问答(VQA)数据集,主要用于训练和测试模型对医学图像和相关文本的理解能力。数据集包含317K的训练VQA对和121K的测试图像。每个样本包括PMC论文ID、上下文、问题、答案、内联句子和图像引用等字段。数据集的图像部分可以从指定的百度网盘链接下载。需要注意的是,数据集的上下文可能偶尔会泄露答案,并且部分图像可能由于论文更新而缺失。
PMC-CaseReport数据集是一个包含医学案例报告的视觉问答(VQA)数据集,主要用于训练和测试模型对医学图像和相关文本的理解能力。数据集包含317K的训练VQA对和121K的测试图像。每个样本包括PMC论文ID、上下文、问题、答案、内联句子和图像引用等字段。数据集的图像部分可以从指定的百度网盘链接下载。需要注意的是,数据集的上下文可能偶尔会泄露答案,并且部分图像可能由于论文更新而缺失。
提供机构:
aisc-team-d1
原始信息汇总
PMC-CaseReport Dataset
数据集结构
PMC-CaseReport 数据集包含以下部分:
- 配置名称: default
- 数据文件:
- 训练集: train-*
- 测试集: test-*
数据集信息
-
特征:
- PMC_id: 字符串类型
- context: 字符串类型
- question: 字符串类型
- answer: 字符串类型
- inline: 字符串类型
- img_ref: 字符串类型
-
分割:
- 训练集:
- 字节数: 634222272
- 样本数: 316838
- 测试集:
- 字节数: 253538916
- 样本数: 120836
- 训练集:
-
下载大小: 139781550
-
数据集大小: 887761188
样本
数据集中的一个案例示例如下:
| PMC_id | PMC9052276 |
|---|---|
| context | 我们报告了一名73岁女性患者的病例,该患者因左侧身体无力而到急诊室就诊。她四年前曾发生过缺血性中风,没有留下神经系统后遗症,两年前因心肌梗死接受了冠状动脉旁路移植术(CABG),有高血压和痴呆症。她的生命体征为血压(BP)117/78 mmHg,脉搏121次/分钟,体温98.9 F,呼吸频率(RR)18次/分钟,氧饱和度(SpO2)在常氧下为97%。她对地点和时间感到困惑,格拉斯哥昏迷评分(GCS)为14(E4V4M6)。她的言语含糊不清,颅神经(CN)2-12大体上完好,左侧上下肢的肌力为0/5,右侧上下肢的肌力为4/5,所有肢体的感知均保留。患者的美国国立卫生研究院中风量表(NIHSS)评分为16分,改良Rankin量表(mRS)评分为5分。非对比头部CT扫描显示基底节和丘脑有旧的腔隙性梗死。未发现颅内出血或急性梗死。由于我们的中心缺乏进行CT灌注所需的资源,因此未进行CT灌注。 |
| inline | 脑部MRI扫描显示急性脑桥中风(图和旧的梗死) |
| question | 脑部MRI扫描揭示了什么? |
| answer | 脑部MRI扫描显示急性脑桥中风和旧的梗死。 |
| img_ref | "[FIG1, FIG3, FIG4]" |
关键解释
- PMC_id: 对应的PMC论文ID。
- context: 病例报告中的上下文,讨论图像之前的内容。
- inline: 原始论文中的内联句子,用于引用,不应输入到网络中。
- question: 生成的问句。
- answer: 正确答案。
- img_ref: 相关图像ID的列表。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



