five

Patho-Bench|病理学图像分析数据集|临床任务预测数据集

收藏
huggingface2025-02-14 更新2025-02-15 收录
病理学图像分析
临床任务预测
下载链接:
https://huggingface.co/datasets/MahmoodLab/Patho-Bench
下载链接
链接失效反馈
资源简介:
Patho-Bench是一个用于评估全切片图像(WSIs)的补丁和幻灯片编码基础模型的数据集,包含了形态学亚型分类、肿瘤分级、分子亚型预测、突变预测、治疗响应与评估、生存预测等任务家族及其具体任务。
创建时间:
2025-02-11
AI搜集汇总
数据集介绍
main_image_url
构建方式
Patho-Bench数据集的构建旨在评估针对全切片图像(WSIs)的补丁和幻灯片编码基础模型。该数据集由 Mahmood 实验室在哈佛医学院和布里格姆妇女医院开发,并包含来自多个公共图像数据集和存储库的任务。数据集的构建遵循严格的分类和标注流程,确保了数据的质量和一致性。
使用方法
使用Patho-Bench数据集时,用户需要先进行身份验证,然后通过HuggingFace Hub提供的接口下载所需的数据集。数据集提供了YAML文件以存储任务元数据,以及TSV文件以存储样本ID、幻灯片ID和标签。用户可以根据自己的需求,下载单个任务或整个数据集,但需要注意,Patho-Bench仅提供数据分割和标签,原始图像数据需从相应的数据集仓库中下载。
背景与挑战
背景概述
Patho-Bench数据集,由哈佛医学院和布里格姆与妇女医院的Mahmood Lab团队开发,旨在评估用于全切片图像(WSIs)的补丁和幻灯片编码基础模型。该数据集的构建得到了NIH NIGMS R35GM138216的支持。Patho-Bench包含多个任务家族,涵盖形态学亚型分类、肿瘤分级、分子亚型预测、突变预测、治疗反应评估和生存预测等多个领域,为病理学领域的人工智能研究提供了丰富的资源。Patho-Bench的发布对于推动病理学图像分析领域的发展具有重要意义,为相关研究提供了标准化和高质量的基准数据集。
当前挑战
Patho-Bench数据集在构建过程中面临的挑战主要包括:1) 数据集的多样性和高质量要求,确保涵盖不同疾病亚型的形态学模式;2) 整合多个来源的数据集,保持数据的一致性和标准化;3) 对于商业实体的使用限制,确保数据集仅用于非商业的学术研究。在研究领域中,Patho-Bench面临的挑战包括:1) 提高模型在复杂病理图像上的泛化能力;2) 优化模型以处理大规模的全切片图像;3) 确保模型在临床实践中的有效性和可靠性。
常用场景
经典使用场景
Patho-Bench数据集被设计用于评估全切片图像(WSIs)的补丁和幻灯片编码基础模型。其经典使用场景在于,研究者可以利用该数据集对病理学图像进行深度学习模型的训练和验证,从而实现对病理切片的自动分析和解读,提高病理诊断的准确性和效率。
解决学术问题
该数据集解决了病理学研究中,对于大规模、高质量病理图像数据的迫切需求。通过提供多种任务类型,如形态学亚型分类、肿瘤分级、分子亚型预测等,Patho-Bench极大地推动了相关学术问题的研究,包括但不限于肿瘤的基因突变预测、治疗响应评估以及生存预后预测等,为学术研究提供了可靠的数据基础。
实际应用
在实际应用中,Patho-Bench数据集可以被应用于临床病理诊断辅助系统,帮助医生更快速、准确地识别疾病类型和阶段,优化治疗方案。此外,它还可以用于制药行业的新药研发过程中,通过对药物反应的预测来指导药物设计。
数据集最近研究
最新研究方向
Patho-Bench数据集是专为评估全切片图像(WSIs)的补丁和幻灯片编码基础模型而设计的。近期研究方向主要集中在利用深度学习技术对病理学图像进行精确的形态学亚型分类、肿瘤分级、分子亚型预测、突变预测、治疗响应评估以及生存预测等任务。这些研究不仅有助于提高病理学诊断的准确性和效率,而且对于个性化医疗和精准治疗策略的制定具有重要的现实意义。Patho-Bench的发布,为相关领域的研究者提供了一个统一的基准,推动了病理学人工智能模型的研究与应用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

danaroth/whu_hi

WHU-Hi数据集(武汉无人机载高光谱图像)由武汉大学RSIDEA研究组收集和共享,可作为精确作物分类和高光谱图像分类研究的基准数据集。该数据集包含三个独立的无人机载高光谱数据集:WHU-Hi-LongKou、WHU-Hi-HanChuan和WHU-Hi-HongHu,均在中国湖北省的农业区域采集。这些数据集通过安装在无人机平台上的Headwall Nano-Hyperspec传感器获取,具有高空间分辨率(H2图像)。数据集预处理包括辐射校准和几何校正,使用仪器制造商提供的HyperSpec软件进行处理。每个数据集都包含了详细的采集时间、天气条件、传感器信息、飞行高度、图像尺寸、波段数量和空间分辨率等信息,并提供了不同作物类别的样本数量。

hugging_face 收录

RDD2022

RDD2022是一个多国图像数据集,用于自动道路损伤检测,由印度理工学院罗凯里分校交通系统中心等机构创建。该数据集包含来自六个国家的47,420张道路图像,标注了超过55,000个道路损伤实例。数据集通过智能手机和高分辨率相机等设备采集,旨在通过深度学习方法自动检测和分类道路损伤。RDD2022数据集的应用领域包括道路状况的自动监测和计算机视觉算法的性能基准测试,特别关注于解决多国道路损伤检测的问题。

arXiv 收录