five

PASTA-Gen-30K

收藏
Hugging Face2025-02-10 更新2025-02-11 收录
下载链接:
https://huggingface.co/datasets/LWHYC/PASTA-Gen-30K
下载链接
链接失效反馈
官方服务:
资源简介:
PASTA-Gen-30K是一个包含30,000个CT体积图像的大型合成数据集,每个病变类型(如肺肿瘤、肝肿瘤、胆囊癌等)都有2,000个样本。每个图像都有精确的病变掩模和结构化的文本报告。

PASTA-Gen-30K is a large-scale synthetic dataset consisting of 30,000 CT volumetric images. For each category of lesions including lung tumors, liver tumors, gallbladder carcinoma and other types, there are 2,000 corresponding samples. Each image is accompanied by precise lesion masks and structured textual reports.
创建时间:
2025-01-28
原始信息汇总

PASTA-Gen-30K 数据集概述

许可

  • 许可证: MIT

数据集简介

PASTA-Gen-30K 是一个大规模合成数据集,包含 30,000 个 CT 图像体积,每个图像体积都带有精确的病变掩模和结构化文本报告。

数据集内容

  • 样本数量: 每种病变类型 2,000 个样本
  • 病变类型:
    • 肺肿瘤
    • 肝肿瘤
    • 胆囊癌
    • 胰腺肿瘤
    • 食管癌
    • 胃癌
    • 结直肠癌
    • 肾脏肿瘤
    • 膀胱癌
    • 骨转移
    • 肝囊肿
    • 胆结石
    • 胰腺囊肿
    • 肾脏囊肿
    • 肾结石

相关模型

  • 模型: PASTA
  • 模型链接: PASTA
搜集汇总
数据集介绍
main_image_url
构建方式
在医学影像分析领域,PASTA-Gen-30K数据集通过合成30,000个计算机断层扫描(CT)体积数据及其精确的病变掩模与结构化文本报告而构建。该数据集旨在涵盖多种病变类型,每种病变类型包含2,000个样本,确保了数据量的充分性与病变类型的多样性。
特点
PASTA-Gen-30K数据集的特点在于其规模宏大、类型全面,不仅包含了常见的肿瘤类型,如肺癌、肝癌、胰腺癌等,还涵盖了良性病变,如肝囊肿、肾结石等。病变掩模的精确性以及结构化文本报告的配套,使得该数据集成为医学影像分割与病变检测研究的宝贵资源。
使用方法
使用PASTA-Gen-30K数据集,研究人员可以将其应用于深度学习模型的训练与验证,以提升医学影像分析算法的性能。数据集的开放许可(MIT)使得用户可以自由地使用和修改数据,以适应不同的研究需求。用户可以通过数据集的官方网站或GitHub仓库获取相关资源,并进行相应的预处理和应用开发。
背景与挑战
背景概述
PASTA-Gen-30K数据集,作为医学影像分析领域的一项重要成果,由LWHYC团队构建于近年。该数据集包含30000个CT影像体积及其精确的病变掩码和结构化文本报告,旨在为多种器官病变提供详实的研究素材。每种病变类型均包含2000个样本,覆盖了肺部、肝脏、胆囊、胰腺、食道、胃、结直肠、肾脏、膀胱等多个器官的肿瘤、囊肿和结石等病变,为相关疾病的研究提供了丰富的数据资源,对推动医学影像诊断模型的开发与应用产生了深远影响。
当前挑战
在构建PASTA-Gen-30K数据集的过程中,研究人员面临了多重挑战。首先,高质量医学影像数据的获取与标注本身就是一项耗时耗力的任务,特别是在保证病变掩码的精确性方面。其次,数据集需要覆盖多种病变类型和器官,这对数据采集的全面性和代表性提出了更高要求。此外,构建结构化文本报告与影像数据的一致性,确保数据集在临床应用中的可靠性,也是一项不容忽视的挑战。在研究领域问题方面,数据集旨在提升医学影像分类和病变检测的准确性,但如何有效利用这些数据训练出泛化能力强、精确度高的模型,仍然是当前研究的一大挑战。
常用场景
经典使用场景
在医学影像分析领域,PASTA-Gen-30K数据集作为大规模合成数据集,其经典的使用场景主要在于训练深度学习模型以实现精确的病变区域识别与标注。该数据集提供了30,000个CT体积图像,及其对应的精确病变掩码和结构化文本报告,为研究者提供了丰富的资源,以便开展病变检测、分割以及病变描述生成等任务。
衍生相关工作
基于PASTA-Gen-30K数据集,研究者们已经开展了一系列相关工作,如病变检测模型的开发、影像报告自动生成系统的构建等。这些研究不仅推动了医学影像分析领域的技术进步,也促进了临床决策支持系统的完善,为精准医疗的发展奠定了坚实的基础。
数据集最近研究
最新研究方向
在医学影像分析领域,PASTA-Gen-30K数据集以其庞大的规模和精确的病变标注,为相关研究提供了宝贵的资源。近期的研究方向聚焦于利用该数据集提升计算机辅助诊断系统的准确性,特别是在肿瘤识别与分类任务中。通过深度学习模型,研究者们致力于挖掘CT影像中的细微特征,以辅助临床医生进行早期诊断。此类研究不仅推动了医学影像诊断技术的发展,还对于提升病变检测的自动化水平和减少误诊率具有深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作