CMS Synthetic Medicare Claims Dataset|医疗数据数据集|数据隐私数据集
收藏CMS合成医疗保险数据集
数据集概述
该数据集由美国医疗保险和医疗补助服务中心(CMS)创建,包含合成医疗保险索赔数据。这些数据是合成的,即它们是真实的但并非基于实际患者数据,旨在保护患者隐私的同时允许用户熟悉医疗保险索赔数据的处理。
数据集内容
数据集分为两个时间段:
- 2008-2010年的数据集,数据量较大(数百万条记录),包含多个文件,使用ICD编码。
- 2015-2023年的数据集,数据量较小,但更新。
数据集包含以下主要部分:
- 索赔(Claims):包括住院、门诊等。
- 受益人(Beneficiary):代表患者。
- 提供者(Provider):医疗服务提供者。
- 处方(Prescriptions):药物处方。
- NDC(国家药品代码):药物描述。
- 位置(Location):按县划分的地理位置。
数据集特点
- 数据集模拟了真实医疗保险索赔数据的格式和结构,包括代码和ID的翻译需求、缺失的维度数据(如提供者和位置数据)。
- 提供了多种项目可能性,适合数据工程师和分析师进行数据处理和分析。
项目构想
基于数据集,可以开展多种项目,包括但不限于:
- 阿片类药物相关项目:如阿片类药物过度处方检测、不适当阿片类药物处方检测、阿片类药物治疗路径追踪。
- 诊断特定项目:如过度使用影像、不适当的急诊室就诊、糖尿病管理模式、心脏病治疗路径。
- 提供者级别洞察:如手术并发症率、慢性疼痛治疗分析、提供者专业一致性。
- 人口级别模式:如儿科治疗趋势、老年人跌倒预防。
- 成本和效率:如重复索赔检测、手术成本基准测试、预防性护理利用不足。
系统设计
数据集的设计目标是能够轻松容纳新公司的数据集,通过创建标准化的转换脚本,将新数据标准化为预期的输出格式,从而避免每次都需要构建新的数据管道。
重要概念
在处理索赔数据时,理解以下概念至关重要:
- ICD代码:用于分类和编码疾病、症状和程序。
- CPT代码:描述医疗、外科和诊断服务。
- HCPCS代码:扩展CPT代码,包括非医生服务。
- DRG代码:将住院治疗按诊断和程序分类,主要用于医院报销。
- 收入代码:指示提供的服务类型(如急诊室、药房)。
- NDC代码:药物的唯一标识符。
通过掌握这些概念,数据分析师可以从索赔数据中提取有价值的见解,帮助提高运营效率、财务表现和患者治疗效果。

LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
中国车牌识别数据集(7类,33万张)
这是一个高质量、平衡的中国车牌识别数据集,包含了33万张各类中国车牌的图片。数据集经过精心设计,确保了图像质量的优秀和大部分各类车牌类型的平衡分布。这个数据集非常适合用于训练和评估车牌识别模型。
魔搭社区 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
ISIC 2019
ISIC 2019数据集包含25,331张皮肤病变图像,用于皮肤癌检测挑战。这些图像分为三个类别:良性、恶性黑色素瘤和基底细胞癌。数据集还包括每张图像的元数据,如病变类型、患者年龄和性别等。
challenge2019.isic-archive.com 收录