Vesuvius Challenge CT Scan Papyrus Scroll Segmentation Dataset|CT扫描数据集|图像分割数据集
收藏Vesuvius Challenge: Preprocess for Automated CT Scan Papyrus Scroll Segmentation
数据集预处理步骤
1. 去噪和对比度增强
- Notebook:
1_denoise_clahe.ipynb - 描述: 该Notebook使用非局部均值进行体积去噪,并通过CLAHE在多GPU并行设置中增强对比度。
2. 体积到堆栈转换
- Notebook:
2_b2nd_to_tiff.ipynb - 描述: 将去噪和对比度增强后的体积(保存为B2NDarray)转换为TIFF图像堆栈。
3. 形态学Chan Vese分割
- Notebook:
3_morphological_chan_vese.ipynb - 描述: 应用形态学Chan Vese算法生成厚体积标签。
4. 三维表面检测
- Notebook:
4_surface_detection.ipynb - 描述: 使用梯度幅值和Hessian行列式的绝对值对每个体素进行阈值处理,进行表面检测。梯度和Hessian通过Pavel Holoborodko的3D噪声鲁棒梯度算子估计,结合各向同性噪声抑制和精确梯度估计。结果应用非极大值抑制。
合成数据集
- 脚本:
.synthetic_datadataset.py - 描述: 包含生成完全合成数据集的脚本。 示例创建数据集: python block_size = [128, 128, 128] synthetic_dataset = SyntheticDataset(num_samples=1000, array_shape=tuple(block_size), transform=get_transforms(tuple(block_size)))
深度神经网络的语义分割
3D UX-Net
- 训练脚本:
.unet rain_uxnet.py --config config-uxnet.yaml - 描述: 用于训练3D UX-Net进行语义分割的训练脚本。使用的损失函数是二元焦点损失和边界损失的混合。为了改进实例分离,在全立方体上进行初步训练后,使用中等强度体素(明显不是空气)遮蔽边界可以提高指标。还使用软标签1 -> 0.95和0 -> 0.05。
3D UNet
- 训练脚本:
.unet rain.py --config config.yaml - 描述: 用于在多个数据集上训练3D UNet进行语义分割的训练脚本。使用的损失函数是统一对称焦点损失和边界损失的混合,特别适用于不平衡的3D分割数据集。应用权重指数移动平均(EMA)以稳定训练,因为在噪声标签的场景中,文献中有使用EMA改善训练性能的积极结果。
使用方法
-
克隆仓库: bash git clone https://github.com/yourusername/vesuvius-ct-scan-segmentation.git cd vesuvius-ct-scan-segmentation
-
安装依赖项(要求文件即将提供)。
-
按提供的顺序打开并运行Notebook以预处理CT扫描数据。记得在单元格中更改路径。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
Wafer Defect
该数据集包含了七个主要类别的晶圆缺陷,分别是:BLOCK ETCH、COATING BAD、PARTICLE、PIQ PARTICLE、PO CONTAMINATION、SCRATCH和SEZ BURNT。这些类别涵盖了晶圆在生产过程中可能出现的多种缺陷类型,每一种缺陷都有其独特的成因和表现形式。数据集不仅在类别数量上具有多样性,而且在样本的多样性和复杂性上也展现了其广泛的应用潜力。每个类别的样本均经过精心标注,确保了数据的准确性和可靠性。
github 收录
YouTube-English
该数据集包含从各种YouTube频道提取的英语音频片段以及相应的转录元数据。数据用于训练自动语音识别(ASR)模型。数据来源于YouTube频道,处理过程包括下载、分割和保存音频及元数据。数据集总结部分详细列出了每个频道的视频数量、持续时间和占总数据集的百分比。
huggingface 收录
Stanford Cars
Cars数据集包含196类汽车的16,185图像。数据被分成8,144训练图像和8,041测试图像,其中每个类被大致分成50-50。类别通常在品牌,型号,年份,例如2012特斯拉Model S或2012 BMW M3 coupe的级别。
OpenDataLab 收录
波士顿房价数据集
波士顿房价数据集是一个经典的机器学习数据集,通常用于回归任务,尤其是房价预测。下方文档中有所有字段顺序的描述。
阿里云天池 收录
