BoneMet/BoneMet|乳腺癌骨转移数据集|医学影像分析数据集
收藏BoneMet: An Open Large-Scale Multi-Modal Dataset for Breast Tumor Bone Metastasis Diagnosis and Prognosis
数据集概述
BoneMet数据集是一个针对乳腺癌骨转移(BTBM)诊断和预后的大型公开多模态医学数据集。该数据集包含超过50TB的多模态医学数据,包括2D X光图像、3D CT扫描和详细的生物数据(如医疗记录和骨定量分析),这些数据从2019年到2024年收集自数千只小鼠。
数据集组成
BoneMet数据集分为六个主要部分:
- Rotation-X-Ray:包含651,300张有肿瘤的小鼠X光图像和676,000张无肿瘤的小鼠X光图像,每张图像分辨率为4,032x4,032x1像素,总大小为20.93 TB。
- Recon-CT:包含3,005个有肿瘤的小鼠CT扫描和7,205个无肿瘤的小鼠CT扫描,每个扫描包含约1,700±200张2D切片,总大小为1.53 TB。
- Seg-CT:包含3,005个有肿瘤的小鼠CT扫描和7,205个无肿瘤的小鼠CT扫描,每个扫描包含约1,700±200张2D切片,总大小为1.53 TB。
- Regist-CT:包含3,005个有肿瘤的小鼠CT扫描和7,205个无肿瘤的小鼠CT扫描,每个扫描包含1,538张2D切片,总大小为0.18 TB。
- RoI-CT:包含3,005个有肿瘤的小鼠CT扫描和7,205个无肿瘤的小鼠CT扫描,每个2D切片分辨率为509x539x1像素,总大小为8.00 GB。
- MiceMediRec:包含501只有肿瘤的小鼠和520只无肿瘤的小鼠的详细医疗记录,总大小为9.44 MB。
数据集贡献
- BoneMet数据集:第一个公开的、TB级别的多模态乳腺癌骨转移数据集,包含高分辨率的多角度旋转X光和CT图像以及详细的生物数据。
- BoneMet包:包含三种类型的API,用于CT图像分割、CT图像配准和基于RoI的CT图像裁剪,方便数据访问和处理。
数据集使用
BoneMet数据集和包可通过以下链接获取:
- BoneMet数据集:Hugging Face
- BoneMet包:Python Package Index (PyPI)
许可证
BoneMet数据集采用Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)许可证。

GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录
CHARLS
中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。
charls.pku.edu.cn 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录