chaoyi-wu/PMC-CaseReport

Name: chaoyi-wu/PMC-CaseReport
Creator: chaoyi-wu
Published: 2023-08-06 00:40:05
License: 暂无描述

Hugging Face2023-08-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/chaoyi-wu/PMC-CaseReport

下载链接

链接失效反馈

官方服务：

资源简介：

PMC-CaseReport数据集是一个包含医学案例报告的视觉问答（VQA）数据集，包含317K个训练样本和121K个测试样本。每个样本包括PMC论文ID、上下文、问题、答案、内联句子和图像引用等特征。数据集用于训练和测试模型在医学图像和文本信息上的问答能力。

提供机构：

chaoyi-wu

原始信息汇总

数据集概述

数据集名称

PMC-CaseReport Dataset

数据集结构

版本：Filtered version，包含317K VQA pairs用于训练，121K用于测试。
加载方式：通过Huggingface datasets库加载，使用以下代码： python from datasets import load_dataset dataset = load_dataset("chaoyi-wu/PMC-CaseReport_original")

数据集文件

配置：
- 默认配置：包含训练和测试数据文件。
  - 训练数据：路径为data/train-*。
  - 测试数据：路径为data/test-*。
数据集信息：
- 特征：
  - PMC_id：字符串类型。
  - context：字符串类型。
  - question：字符串类型。
  - answer：字符串类型。
  - inline：字符串类型。
  - img_ref：字符串类型。
- 分割：
  - 训练集：大小为634222272字节，包含316838个示例。
  - 测试集：大小为253538916字节，包含120836个示例。
- 下载大小：139781550字节。
- 数据集总大小：887761188字节。

样本示例

样本结构：
- PMC_id：PMC9052276
- context：详细病例描述。
- inline：提及图像的句子。
- question：生成的问题。
- answer：正确答案。
- img_ref：相关图像ID列表。

注意事项

部分情况下，答案可能直接出现在上下文中。
由于数据收集时间窗口，部分论文可能已更新，导致某些图像在数据集中缺失。

搜集汇总

数据集介绍

构建方式

PMC-CaseReport数据集通过从PubMed Central (PMC) 中筛选出317,000对训练样本和121,000对测试样本构建而成。该数据集包含了病例报告中的文本部分和图像部分，具体包括病例的上下文、生成的问题、正确答案以及相关的图像引用。数据集的构建过程中，文本和图像数据分别从PMC中提取，并通过统一命名规则进行组织，确保数据的一致性和可追溯性。

特点

PMC-CaseReport数据集的主要特点在于其结合了文本和图像数据，提供了丰富的病例报告信息。数据集中的每个样本都包含病例的详细描述、生成的问题、正确答案以及相关的图像引用，这为多模态学习提供了良好的基础。此外，数据集中的图像部分可以通过特定的命名规则进行检索，便于用户获取相关的图像数据。

使用方法

使用PMC-CaseReport数据集时，用户可以通过HuggingFace的datasets库进行加载，具体代码如下：`from datasets import load_dataset; dataset = load_dataset('chaoyi-wu/PMC-CaseReport')`。加载后的数据集包含了病例的上下文、生成的问题、正确答案以及相关的图像引用。用户可以根据需要提取和处理这些数据，进行多模态学习或其他相关研究。

背景与挑战

背景概述

PMC-CaseReport数据集由Chaoyi Wu等人创建，专注于医学案例报告的视觉问答任务。该数据集包含了317,000对训练样本和121,000对测试样本，涵盖了从PubMed Central（PMC）收集的医学文献中的案例报告。数据集的核心研究问题是如何从医学图像和文本中提取并回答相关问题，这对于医学教育和临床决策支持具有重要意义。该数据集的构建旨在推动医学领域的自然语言处理和计算机视觉技术的应用，特别是在医学图像与文本的联合理解方面。

当前挑战

PMC-CaseReport数据集在构建过程中面临多项挑战。首先，医学文本和图像的复杂性使得数据标注和问题生成变得困难，尤其是在确保问题与答案的准确性和相关性方面。其次，由于数据集中的图像来源于PubMed Central，部分文献在数据集构建后进行了更新，导致部分图像缺失，影响了数据集的完整性。此外，数据集中存在上下文信息泄露的问题，即答案可能直接出现在问题之前的文本中，这增加了模型学习的难度。这些挑战要求研究者在数据预处理、模型设计和评估指标选择上进行深入探索。

常用场景

经典使用场景

PMC-CaseReport数据集在医学领域中被广泛应用于医学图像与文本的联合分析。通过提供病例报告中的文本内容、问题、答案以及相关的图像引用，该数据集支持医学图像问答（VQA）任务的研究。研究者可以利用此数据集训练模型，使其能够根据医学图像和相关文本内容生成准确的医学问题答案，从而推动医学图像理解与诊断辅助系统的发展。

解决学术问题

PMC-CaseReport数据集解决了医学图像与文本联合分析中的关键问题，特别是在医学图像问答（VQA）领域。通过提供丰富的病例报告文本和对应的医学图像，该数据集帮助研究者开发能够理解医学图像并回答相关问题的智能系统。这不仅提升了医学图像分析的准确性，还为医学诊断提供了新的辅助工具，具有重要的学术价值和临床应用前景。

衍生相关工作

基于PMC-CaseReport数据集，研究者们开发了多种医学图像问答模型，这些模型在医学图像理解与诊断辅助领域取得了显著进展。例如，有研究利用该数据集训练深度学习模型，使其能够根据医学图像和文本生成准确的诊断问题答案。此外，该数据集还推动了医学图像与文本联合分析的多模态学习研究，促进了跨模态信息融合技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集