five

CytoDArk0|脑细胞研究数据集|神经疾病数据集

收藏
arXiv2024-09-06 更新2024-09-10 收录
脑细胞研究
神经疾病
下载链接:
https://zenodo.org/records/13694738
下载链接
链接失效反馈
资源简介:
CytoDArk0是由伦敦南岸大学团队创建的一个用于脑细胞实例分割和分类的新型数据集,主要包含Nissl染色的大脑皮质、小脑和海马体的图像。该数据集涵盖了来自鲸偶蹄目和灵长目动物的样本,旨在支持脑细胞结构研究的自动化和可重复性。数据集的创建过程包括初始的机器学习方法和逐步的深度学习方法,最终通过CISCA框架进行处理。CytoDArk0的应用领域包括神经退行性疾病和神经炎症疾病的研究,旨在通过精确量化脑细胞的类型、密度和空间排列,揭示疾病的发病机制和治疗方法。
提供机构:
伦敦南岸大学
创建时间:
2024-09-06
AI搜集汇总
数据集介绍
main_image_url
构建方式
CytoDArk0数据集的构建基于Nissl染色技术,涵盖了哺乳动物大脑的多个区域,包括大脑皮层、小脑和海马体等,涉及鲸偶蹄目和灵长目等多个物种。数据集由69张20倍放大率的1024×1024像素图像和58张40倍放大率的2048×2048像素图像组成。这些图像通过QuPath软件进行手动标注,标注内容包括神经元和胶质细胞的轮廓。为了确保数据集的质量,标注过程经过多次校验和修正,最终生成了实例分割掩码以及辅助地图,如轮廓掩码和距离地图,以支持后续的深度学习模型训练和评估。
特点
CytoDArk0数据集的显著特点在于其专注于Nissl染色的脑组织图像,提供了高分辨率的细胞实例分割标注。与传统的H&E染色相比,Nissl染色能够更清晰地展示细胞体的形态和密度,尤其适用于脑细胞的结构分析。此外,数据集涵盖了多个物种和脑区,提供了丰富的细胞形态和密度变化,为跨物种的脑细胞结构比较研究提供了宝贵的资源。
使用方法
CytoDArk0数据集可用于训练和评估细胞实例分割和分类的深度学习模型。用户可以通过加载数据集中的图像和标注,使用轻量级的U-Net架构进行模型训练,结合像素分类和距离回归任务来实现细胞的精确分割。数据集的标注信息包括细胞的轮廓和类型,支持多任务学习,如细胞实例分割和分类。此外,数据集的开放性使得研究人员能够在此基础上进行进一步的算法开发和验证,推动数字神经病理学和脑细胞结构研究的发展。
背景与挑战
背景概述
CytoDArk0数据集由伦敦南岸大学、帕多瓦大学和帕多瓦统计科学研究所的研究团队于2024年9月9日创建,旨在支持脑细胞实例分割与分类的研究。该数据集包含Nissl染色的大脑组织图像,涵盖了哺乳动物的皮质、小脑和海马体等多个脑区。CytoDArk0的创建是为了填补脑组织Nissl染色图像中细胞实例分割数据集的空白,推动数字病理学和脑细胞结构研究的发展。该数据集的发布不仅为深度学习方法在脑细胞分割与分类中的应用提供了基础,还为神经退行性疾病和神经炎症等领域的研究提供了新的工具。
当前挑战
CytoDArk0数据集在构建过程中面临了多个挑战。首先,细胞实例分割任务本身具有复杂性,尤其是在细胞重叠、接触或形态多样的情况下,准确分割和分类细胞极具挑战性。其次,Nissl染色图像中的细胞形态和密度变化较大,不同脑区和物种之间的细胞特征差异显著,这增加了模型训练的难度。此外,构建过程中需要大量的人工标注,以确保数据集的质量和准确性,这一过程耗时且容易受到标注者主观性的影响。最后,数据集的多样性和复杂性要求模型具备较强的泛化能力,能够在不同放大倍数和染色技术下保持稳定的性能。
常用场景
经典使用场景
CytoDArk0数据集的经典使用场景主要集中在脑组织细胞的实例分割与分类任务中。该数据集提供了Nissl染色的大脑组织图像,涵盖了皮质、小脑和海马体等多个脑区,适用于研究大脑细胞的形态学特征、密度分布以及细胞类型的分类。通过结合深度学习框架CISCA,研究者可以实现对单个细胞的精确分割与分类,进而支持大脑皮层结构、神经元分布等领域的研究。
衍生相关工作
CytoDArk0数据集的发布催生了一系列相关的经典工作,尤其是在脑组织细胞分割与分类领域。例如,基于该数据集,研究者开发了CISCA框架,提出了一种轻量级的U-Net架构,结合多任务学习实现了高效的细胞实例分割与分类。此外,该数据集还推动了其他深度学习方法的发展,如StarDist、Hover-Net等,这些方法在细胞分割与分类任务中表现出色,进一步扩展了CytoDArk0的应用范围。未来,该数据集有望在脑细胞图谱构建、神经网络分析等领域发挥更大的作用。
数据集最近研究
最新研究方向
CytoDArk0数据集的最新研究方向主要集中在深度学习框架在细胞实例分割与分类中的应用,特别是在组织病理学图像分析和脑皮层细胞结构研究中的前沿应用。研究者提出了一种名为CISCA的新型深度学习框架,该框架通过轻量级的U-Net架构,结合多任务学习方法,实现了细胞实例的精确分割与分类。此外,CytoDArk0数据集的引入为脑皮层细胞结构研究提供了新的开放资源,推动了数字病理学和脑细胞结构研究的进展。该数据集的发布不仅促进了跨物种脑细胞结构比较研究,还为神经退行性疾病和神经炎症性疾病的病理机制研究提供了新的工具。
相关研究论文
  • 1
    CISCA and CytoDArk0: a Cell Instance Segmentation and Classification method for histo(patho)logical image Analyses and a new, open, Nissl-stained dataset for brain cytoarchitecture studies伦敦南岸大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

猫狗分类

## 数据集描述 ### 数据集简介 本数据集是简单的猫狗二分类数据集,共2个类别,其中训练集包含275张带注释的图像,验证集包含70张带注释的图像。整个数据集共10.3MB,可用于快速模型验证、性能评估、小数据集训练等。 ### 数据集支持的任务 可用于快速模型验证、性能评估、小数据集训练等。 ## 数据集的格式和结构 ### 数据格式 数据集包括训练集train和验证集val,train和val文件夹之下按文件夹进行分类,共有2个子文件夹,同类别标签的图片在同一个文件夹下,图片格式为JPG。同时包含与标注文件中label id相对应的类名文件classname.txt。 ### 数据集加载方式 ```python from modelscope.msdatasets import MsDataset from modelscope.utils.constant import DownloadMode ms_train_dataset = MsDataset.load( 'cats_and_dogs', namespace='tany0699', subset_name='default', split='train') # 加载训练集 print(next(iter(ms_train_dataset))) ms_val_dataset = MsDataset.load( 'cats_and_dogs', namespace='tany0699', subset_name='default', split='validation') # 加载验证集 print(next(iter(ms_val_dataset))) ``` ### 数据分片 本数据集包含train和val数据集。 | 子数据集 | train | val | test | |---------|-------------:|-----------:|---------:| | default | 训练集 | 验证集 | / | ### Clone with HTTP ```bash git clone https://www.modelscope.cn/datasets/tany0699/cats_and_dogs.git ```

魔搭社区 收录

LEVIR-CD

LEVIR-CD 是一个新的大规模遥感建筑变化检测数据集。引入的数据集将成为评估变化检测 (CD) 算法的新基准,尤其是基于深度学习的算法。 LEVIR-CD 由 637 个非常高分辨率(VHR,0.5m/像素)Google Earth (GE) 图像块对组成,大小为 1024 × 1024 像素。这些时间跨度为 5 到 14 年的双时相图像具有显着的土地利用变化,尤其是建筑增长。 LEVIR-CD涵盖别墅住宅、高层公寓、小型车库和大型仓库等各类建筑。在这里,我们关注与建筑相关的变化,包括建筑增长(从土壤/草地/硬化地面或在建建筑到新建筑区域的变化)和建筑衰退。这些双时相图像由遥感图像解释专家使用二进制标签(1 表示变化,0 表示不变)进行注释。我们数据集中的每个样本都由一个注释器进行注释,然后由另一个注释器进行双重检查以产生高质量的注释。完整注释的 LEVIR-CD 总共包含 31,333 个单独的变更构建实例。

OpenDataLab 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国逐日格点降水数据集V2(1960–2024,0.1°)

CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据,并纳入11个降水相关变量,用于表征降水的相关性。数据集采用改进的反距离加权方法,并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集(包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS)表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证,发现该数据集显著提高了降水测量精度,降低了降水事件的高估,为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据,覆盖整个中国大陆(18°N–54°N,72°E–136°E)。该数据集涵盖1960–2024年,并将每年持续更新。日值数据以NetCDF格式提供,为了方便用户,我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。

国家青藏高原科学数据中心 收录