five

Patho-Bench|病理学图像分析数据集|临床任务预测数据集

收藏
huggingface2025-02-14 更新2025-02-15 收录
病理学图像分析
临床任务预测
下载链接:
https://huggingface.co/datasets/MahmoodLab/Patho-Bench
下载链接
链接失效反馈
资源简介:
Patho-Bench是一个用于评估全切片图像(WSIs)的补丁和幻灯片编码基础模型的数据集,包含了形态学亚型分类、肿瘤分级、分子亚型预测、突变预测、治疗响应与评估、生存预测等任务家族及其具体任务。
创建时间:
2025-02-11
AI搜集汇总
数据集介绍
main_image_url
构建方式
Patho-Bench数据集的构建旨在评估针对全切片图像(WSIs)的补丁和幻灯片编码基础模型。该数据集由 Mahmood 实验室在哈佛医学院和布里格姆妇女医院开发,并包含来自多个公共图像数据集和存储库的任务。数据集的构建遵循严格的分类和标注流程,确保了数据的质量和一致性。
使用方法
使用Patho-Bench数据集时,用户需要先进行身份验证,然后通过HuggingFace Hub提供的接口下载所需的数据集。数据集提供了YAML文件以存储任务元数据,以及TSV文件以存储样本ID、幻灯片ID和标签。用户可以根据自己的需求,下载单个任务或整个数据集,但需要注意,Patho-Bench仅提供数据分割和标签,原始图像数据需从相应的数据集仓库中下载。
背景与挑战
背景概述
Patho-Bench数据集,由哈佛医学院和布里格姆与妇女医院的Mahmood Lab团队开发,旨在评估用于全切片图像(WSIs)的补丁和幻灯片编码基础模型。该数据集的构建得到了NIH NIGMS R35GM138216的支持。Patho-Bench包含多个任务家族,涵盖形态学亚型分类、肿瘤分级、分子亚型预测、突变预测、治疗反应评估和生存预测等多个领域,为病理学领域的人工智能研究提供了丰富的资源。Patho-Bench的发布对于推动病理学图像分析领域的发展具有重要意义,为相关研究提供了标准化和高质量的基准数据集。
当前挑战
Patho-Bench数据集在构建过程中面临的挑战主要包括:1) 数据集的多样性和高质量要求,确保涵盖不同疾病亚型的形态学模式;2) 整合多个来源的数据集,保持数据的一致性和标准化;3) 对于商业实体的使用限制,确保数据集仅用于非商业的学术研究。在研究领域中,Patho-Bench面临的挑战包括:1) 提高模型在复杂病理图像上的泛化能力;2) 优化模型以处理大规模的全切片图像;3) 确保模型在临床实践中的有效性和可靠性。
常用场景
经典使用场景
Patho-Bench数据集被设计用于评估全切片图像(WSIs)的补丁和幻灯片编码基础模型。其经典使用场景在于,研究者可以利用该数据集对病理学图像进行深度学习模型的训练和验证,从而实现对病理切片的自动分析和解读,提高病理诊断的准确性和效率。
解决学术问题
该数据集解决了病理学研究中,对于大规模、高质量病理图像数据的迫切需求。通过提供多种任务类型,如形态学亚型分类、肿瘤分级、分子亚型预测等,Patho-Bench极大地推动了相关学术问题的研究,包括但不限于肿瘤的基因突变预测、治疗响应评估以及生存预后预测等,为学术研究提供了可靠的数据基础。
实际应用
在实际应用中,Patho-Bench数据集可以被应用于临床病理诊断辅助系统,帮助医生更快速、准确地识别疾病类型和阶段,优化治疗方案。此外,它还可以用于制药行业的新药研发过程中,通过对药物反应的预测来指导药物设计。
数据集最近研究
最新研究方向
Patho-Bench数据集是专为评估全切片图像(WSIs)的补丁和幻灯片编码基础模型而设计的。近期研究方向主要集中在利用深度学习技术对病理学图像进行精确的形态学亚型分类、肿瘤分级、分子亚型预测、突变预测、治疗响应评估以及生存预测等任务。这些研究不仅有助于提高病理学诊断的准确性和效率,而且对于个性化医疗和精准治疗策略的制定具有重要的现实意义。Patho-Bench的发布,为相关领域的研究者提供了一个统一的基准,推动了病理学人工智能模型的研究与应用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

GlobalBuildingAtlas

GlobalBuildingAtlas是一个公开的全球建筑数据集,提供了全球范围内的建筑多边形、高度和LoD1 3D模型。该数据集是第一个提供高质量的、一致的、完整的建筑数据,以2D和3D形式在单个建筑层面上进行全球覆盖的公开数据集。数据集包括2.75亿座建筑,比目前最全面的数据库多出超过10亿座建筑。GBA.Height提供了迄今为止最详细和最准确的全球3D建筑高度图,实现了3×3米的空间分辨率,比以前的全球产品(90米)精细30倍,能够在本地和全球范围内对建筑体积进行高分辨率和可靠的分析。GBA.LoD1代表了第一个完整的全球LoD1建筑模型,包括2.68亿个建筑实例,具有预测的高度,即高度完整性超过97%,在不同大陆上实现了从1.5米到8.9米的RMSEs。GlobalBuildingAtlas以其高度精度、全面的全球覆盖和丰富的空间细节,为全球建筑现状提供了新的见解,开辟了前所未有的地理空间分析可能性,例如更好地说明人们居住在哪里,以及更全面地监测联合国第11个可持续发展目标的进展。

arXiv 收录

鸭绿江流域与水系 – 世界地理数据大百科辞条

鸭绿江流域是指鸭绿江干流和支流汇水区,地理位置为39&deg43′57″N-42&deg17′28″N,123&deg35′59″E-128&deg45′50″E。与其接壤的流域分别是辽河流域(东)、松花江流域(北)、图们江流域(北)、大同江流域(西南)等。鸭绿江流域界线在中国境内从长白山天池火山口的南壁起始,向西南经长白山脉、转向西南至千山山脉的北部,再折向南入海;在朝鲜境内,鸭绿江流域从长白山天池南坡启始向东南经过摩天岭山脉,在头流山(2309 m)转向西南方向的赴战岭山脉,在英雄里附近转向西,经狼林山(2184 m)、广城、松源,转向西南方向的狄逾岭山脉,接江南山脉的南部后至鸭绿江河口。鸭绿江流域面积65215.49 km&sup2,其中,中国境内面积32799.22 km&sup2,朝鲜境内面积32416.27 km&sup2。鸭绿江是中(国)朝(鲜)界河,它起源于长白山天池火山口的南壁,向南经惠山(朝)、折向西经临江(中)、再转向西南直向丹东(中)、新义州(朝),最后在东港(中)和多狮里(朝)附近注入黄海的西朝鲜湾。鸭绿江干流长844.98 km,有几条比较大的支流汇入,包括在朝鲜境内的虛川江、長津江、厚州川、慈城江、禿魯江、忠满江和三桥川;在中国境内的浑江、蒲石河、瑗河等。鸭绿江干流沿中朝国界线自东北向西南流经吉林省的长白朝鲜族自治县、临江市、集安市;辽宁省的桓仁满族自治县、宽甸满族自治县、丹东市和东港市;朝鲜的两江道、慈江道和平安北道。鸭绿江流域地处暖温带湿润季风气候区。年降水量800-1200 mm。流域内多山,最高海拔2745 m,河道比降比较大,达到0.0032,其中在中段可达到0.01。丰富的降水补给和较大的河床比降,使得鸭绿江流域成为亚洲单位面积水资源和水利资源最丰富的流域之一。近80年来,流域内先后建造了水丰水库(中、朝)、渭源水库(中、朝)、铁甲水库(中)、太平哨水库(中)、桓仁水库(中)、回龙山水库(中)、满丰湖水库(朝)、版平里水库(朝)、时中湖水库(朝)、狼林湖水库(朝)、长津湖水库(朝)、赴战湖水库(朝)、丰西湖水库等(朝)。数据文件包括鸭绿江干流、鸭绿江水系和鸭绿江流域地理信息系统数据文件组成。数据集以.kmz 和.shp格式存储,数据量43.8 MB(压缩为20.1 MB)。

国家对地观测科学数据中心 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录