five

chaoyi-wu/PMC-CaseReport_original

收藏
Hugging Face2023-08-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/chaoyi-wu/PMC-CaseReport_original
下载链接
链接失效反馈
官方服务:
资源简介:
PMC-CaseReport_original数据集是一个用于视觉问答(VQA)任务的医学案例报告数据集。数据集包含训练和测试两部分,分别有883,570和239,654个样本。每个样本包含PMC_id、context、img_ref、inline、question和answer六个特征。PMC_id对应PMC论文的ID,context是案例报告中讨论图像之前的文本内容,inline是原始论文中引用图像的句子,question是生成的问题,answer是正确答案,img_ref是相关图像的ID列表。数据集中的图像可以从PMC图像部分获取,图像命名格式为PMCxxxxxxx_figid.jpg。需要注意的是,部分案例的context中可能泄露了答案,且由于数据收集时间窗口的原因,部分图像可能缺失。

PMC-CaseReport_original数据集是一个用于视觉问答(VQA)任务的医学案例报告数据集。数据集包含训练和测试两部分,分别有883,570和239,654个样本。每个样本包含PMC_id、context、img_ref、inline、question和answer六个特征。PMC_id对应PMC论文的ID,context是案例报告中讨论图像之前的文本内容,inline是原始论文中引用图像的句子,question是生成的问题,answer是正确答案,img_ref是相关图像的ID列表。数据集中的图像可以从PMC图像部分获取,图像命名格式为PMCxxxxxxx_figid.jpg。需要注意的是,部分案例的context中可能泄露了答案,且由于数据收集时间窗口的原因,部分图像可能缺失。
提供机构:
chaoyi-wu
原始信息汇总

数据集概述

数据集名称

  • PMC-CaseReport_original

数据集结构

  • 配置信息

    • 默认配置包含训练集和测试集。
    • 训练集路径:data/train-*
    • 测试集路径:data/test-*
  • 数据集特征

    • PMC_id: 字符串类型
    • context: 字符串类型
    • img_ref: 字符串类型
    • inline: 字符串类型
    • question: 字符串类型
    • answer: 字符串类型
  • 数据集大小

    • 训练集:883,570个样本,总大小1,807,264,196字节
    • 测试集:239,654个样本,总大小509,716,573字节
    • 下载大小:333,750,891字节
    • 数据集总大小:2,316,980,769字节

样本示例

| PMC_id | context

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作