five

VannIsaacHuang/cpsc2018

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/VannIsaacHuang/cpsc2018
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* dataset_info: features: - name: image dtype: image - name: label dtype: class_label: names: '0': 1AVB '1': AF '2': LBBB '3': Normal '4': PAC '5': PVC '6': RBBB '7': STD '8': STE splits: - name: train num_bytes: 2271502441.611 num_examples: 44327 - name: validation num_bytes: 15416122.0 num_examples: 285 - name: test num_bytes: 66362558.867 num_examples: 1283 download_size: 2478695413 dataset_size: 2353281122.478 --- # Dataset Card for "cpsc2018" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
VannIsaacHuang
搜集汇总
数据集介绍
main_image_url
构建方式
CPSC2018数据集源自2018年中国生理信号挑战赛(China Physiological Signal Challenge 2018),旨在推动心电信号自动分析技术的发展。该数据集包含了来自多个医疗机构的12导联心电图记录,经过专业医师的标注,涵盖了9种不同的心电类别,包括正常心律、房颤、房室传导阻滞等。构建过程严格遵循医学标注标准,确保标签的准确性和一致性。数据被划分为训练集、验证集和测试集,其中训练集包含44327个样本,验证集包含285个样本,测试集包含1283个样本,为心电信号分类任务提供了丰富的训练和评估资源。
特点
CPSC2018数据集以其高质量的标注和丰富的类别覆盖而著称。其标签体系涵盖了8种异常心电类型及正常心律,包括一度房室传导阻滞(1AVB)、房颤(AF)、左束支传导阻滞(LBBB)、房性早搏(PAC)、室性早搏(PVC)、右束支传导阻滞(RBBB)、ST段压低(STD)和ST段抬高(STE),构成了一个均衡且具有挑战性的分类基准。数据集中的图像格式保留了心电图的原始波形特征,便于深度学习和计算机视觉方法的直接应用。此外,数据集的规模适中,既避免了过大的计算负担,又提供了足够的样本量以支持模型的泛化能力。
使用方法
使用CPSC2018数据集时,研究者可以通过Hugging Face Datasets库轻松加载,指定配置为'default'即可自动获取训练、验证和测试三个子集。每个样本包含一张心电图图像(image字段)和对应的类别标签(label字段),可直接用于监督学习任务。常见的应用场景包括基于卷积神经网络(CNN)或视觉变换器(ViT)的心电分类模型训练。建议在训练前对图像进行标准化预处理,如调整尺寸和归一化像素值。由于数据集的类别分布可能不均衡,可采用加权损失函数或数据增强策略来优化模型性能。加载代码示例为:`from datasets import load_dataset; dataset = load_dataset('cpsc2018')`。
背景与挑战
背景概述
心电图(ECG)作为心血管疾病诊断的核心工具,其自动化解读对于提升临床效率与准确性至关重要。在此背景下,cpsc2018数据集应运而生,源自2018年中国生理信号挑战赛(CPSC),由中国多家顶尖医疗机构与科研团队联合构建。该数据集聚焦于心电图异常分类的核心研究问题,涵盖9类常见心脏异常类型,包括心房颤动、束支传导阻滞及ST段改变等,共计44,327条训练样本及1,283条测试样本。其发布不仅为心电信号智能分析提供了标准化基准,更推动了深度学习在临床心电诊断领域的广泛应用,成为该领域极具影响力的公共资源之一。
当前挑战
cpsc2018数据集所应对的领域挑战在于心电异常自动分类的复杂性,各类别间症状表现相似且样本分布不均,使得模型在区分细微波形差异时面临巨大困难,尤其在罕见异常类型的识别上易出现偏差。构建过程中,挑战则源于临床数据采集的严苛性,包括电极噪声、基线漂移等信号干扰的滤除,以及多中心数据统一标注标准的制定,确保标签的医学准确性与一致性。此外,构建大规模高质量标注数据集所需的人力与时间成本,也对项目团队提出了严峻考验。
常用场景
经典使用场景
CPSC2018数据集作为中国生理信号挑战赛(China Physiological Signal Challenge 2018)的核心资源,广泛服务于心电图(ECG)异常分类的研究工作。该数据集汇聚了超过四万份标注精细的12导联静息态心电图记录,涵盖了包括房颤(AF)、房室传导阻滞(1AVB)、左右束支传导阻滞(LBBB/RBBB)、室性早搏(PVC)、房性早搏(PAC)、ST段改变(STD/STE)以及正常心律在内的九类心电状态。研究者通常利用该数据集训练和评估深度学习模型(如卷积神经网络或循环神经网络)在多类别心电信号分类任务上的性能,尤其适用于不平衡样本分布场景下的鲁棒性分析与模型泛化能力验证。
解决学术问题
CPSC2018数据集的出现有效解决了心律失常自动诊断研究中标注数据匮乏与样本不均衡的学术难题。在传统临床实践中,心电诊断高度依赖专家经验且耗时费力,而该数据集通过提供大规模、标准化且结构清晰的多类别心电记录,为学界构建高精度、可解释的智能诊断模型奠定了数据基础。其显著意义在于推动了深度学习方法在细粒度心律失常分类领域的突破,特别是对罕见但临床意义重大的心电异常(如传导阻滞与ST段偏移)的识别性能提升,并促进了跨数据集迁移学习、领域自适应及模型可解释性研究的发展。
衍生相关工作
CPSC2018数据集催生了一系列具有里程碑意义的学术成果。例如,基于该数据集的CPSC2018国际挑战赛涌现了众多高效的心律分类框架,其中多尺度残差网络与注意力机制结合的模型成为后续研究的基准。此后,学者们进一步提出了自监督预训练方法(如对比学习在ECG表征上的应用),利用CPSC2018的丰富标注进行跨域特征迁移。此外,该数据集还推动了心电图生成对抗网络(ECG-GAN)的研究,用于增强罕见心律样本的合成,以及模型蒸馏技术在边缘设备部署中的探索,形成了从数据驱动到模型优化的完整学术链条。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作