chaoyi-wu/PMC-CaseReport_original
收藏Hugging Face2023-08-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/chaoyi-wu/PMC-CaseReport_original
下载链接
链接失效反馈官方服务:
资源简介:
PMC-CaseReport_original数据集是一个用于视觉问答(VQA)任务的医学案例报告数据集。数据集包含训练和测试两部分,分别有883,570和239,654个样本。每个样本包含PMC_id、context、img_ref、inline、question和answer六个特征。PMC_id对应PMC论文的ID,context是案例报告中讨论图像之前的文本内容,inline是原始论文中引用图像的句子,question是生成的问题,answer是正确答案,img_ref是相关图像的ID列表。数据集中的图像可以从PMC图像部分获取,图像命名格式为PMCxxxxxxx_figid.jpg。需要注意的是,部分案例的context中可能泄露了答案,且由于数据收集时间窗口的原因,部分图像可能缺失。
PMC-CaseReport_original数据集是一个用于视觉问答(VQA)任务的医学案例报告数据集。数据集包含训练和测试两部分,分别有883,570和239,654个样本。每个样本包含PMC_id、context、img_ref、inline、question和answer六个特征。PMC_id对应PMC论文的ID,context是案例报告中讨论图像之前的文本内容,inline是原始论文中引用图像的句子,question是生成的问题,answer是正确答案,img_ref是相关图像的ID列表。数据集中的图像可以从PMC图像部分获取,图像命名格式为PMCxxxxxxx_figid.jpg。需要注意的是,部分案例的context中可能泄露了答案,且由于数据收集时间窗口的原因,部分图像可能缺失。
提供机构:
chaoyi-wu
原始信息汇总
数据集概述
数据集名称
- PMC-CaseReport_original
数据集结构
-
配置信息:
- 默认配置包含训练集和测试集。
- 训练集路径:
data/train-* - 测试集路径:
data/test-*
-
数据集特征:
- PMC_id: 字符串类型
- context: 字符串类型
- img_ref: 字符串类型
- inline: 字符串类型
- question: 字符串类型
- answer: 字符串类型
-
数据集大小:
- 训练集:883,570个样本,总大小1,807,264,196字节
- 测试集:239,654个样本,总大小509,716,573字节
- 下载大小:333,750,891字节
- 数据集总大小:2,316,980,769字节
样本示例
| PMC_id | context



