ClinText-SP
收藏arXiv2025-03-24 更新2025-03-26 收录
下载链接:
https://huggingface.co/datasets/IIC/ClinText-SP
下载链接
链接失效反馈官方服务:
资源简介:
ClinText-SP是一个西班牙语临床文本的数据集,由西班牙卡洛斯三世大学知识工程研究所构建,包含37077个样本,总tokens数为25.62M。数据集来源包括医学期刊、共享任务的数据集和其他医学文本,如临床案例、医学期刊文章和从维基百科提取的医学知识。该数据集旨在促进西班牙语临床自然语言处理的研究,并为临床语言理解提供高质量的资源。
ClinText-SP is a Spanish clinical text dataset constructed by the Knowledge Engineering Institute of Carlos III University of Madrid, Spain. It contains 37,077 samples with a total of 25.62 million tokens. The dataset sources include medical journals, shared-task datasets, and other medical texts such as clinical cases, medical journal articles, and medical knowledge extracted from Wikipedia. This dataset aims to promote research on Spanish clinical natural language processing and provide high-quality resources for clinical language understanding.
提供机构:
西班牙卡洛斯三世大学, 知识工程研究所
创建时间:
2025-03-24
搜集汇总
数据集介绍

构建方式
ClinText-SP数据集的构建过程体现了严谨的学术态度与技术创新。研究团队从西班牙语医学期刊、共享任务标注语料及维基百科等多源异构数据中,通过定制化爬取策略获取原始文本。针对期刊文献格式多样性挑战,开发了结合正则表达式与Qwen2.5大语言模型的混合清洗方案,有效处理了HTML残留、作者信息等噪声。采用MinHash算法进行模糊去重,并利用Langdetect工具确保语言纯净度,最终整合成包含2600万标记、37077个样本的高质量语料库。这种多源融合策略既保留了临床病例的叙事完整性,又兼顾了结构化医学知识的系统性。
特点
该数据集最显著的特点是其在西班牙临床NLP领域的规模与多样性优势。作为当前最大的公开西班牙语临床语料库,其样本平均长度达700标记,为模型训练提供充足上下文。数据涵盖内科、精神健康、消化疾病等十余个专科领域,包含期刊病例的详细叙事与共享任务的精准标注,形成知识密度与覆盖面的理想平衡。特别值得注意的是,数据集通过严格的同行评审文献筛选与专业标注流程,确保了临床术语的准确性和文本的学术价值,为西班牙语医疗文本分析建立了新的质量基准。
使用方法
研究人员可通过Hugging Face平台直接获取该数据集,其标准化格式便于各类NLP任务的应用。典型使用场景包括:基于RigoBERTa Clinical模型进行领域自适应预训练,通过掩码语言建模任务学习临床语境特征;或针对特定下游任务如命名实体识别(使用CANTEMIST子集)、文本分类(采用CARES放射报告)进行微调。对于长文本处理,建议采用128标记的滑动窗口策略。数据集的多源特性支持对比研究,例如可分别使用期刊病例子集与共享任务子集验证不同数据来源对模型性能的影响。
背景与挑战
背景概述
ClinText-SP数据集由马德里卡洛斯三世大学和知识工程研究所的研究团队于2025年推出,是当前西班牙临床自然语言处理(NLP)领域规模最大的公开语料库。该数据集通过整合医学期刊临床案例、共享任务标注语料等多源异构数据,构建了包含2600万标记的临床文本资源,旨在解决西班牙语临床NLP研究中高质量数据稀缺的核心问题。其创新性体现在首次系统化整合了西班牙语临床叙事文本,并通过配套发布的RigoBERTa Clinical模型验证了数据价值,显著提升了临床实体识别等下游任务性能,为拉丁语系医疗AI发展提供了关键基础设施。
当前挑战
该数据集面临双重挑战:在领域问题层面,需克服临床文本特有的术语歧义、非结构化叙事风格及隐私脱敏要求,这对实体识别和关系抽取任务提出更高要求;在构建过程中,需处理来自37种数据源的格式异构性(如PDF/HTML混编),设计针对医学期刊的启发式过滤规则,并采用MinHash算法解决跨源重复病例检测问题。此外,西班牙语临床文本的方言变体处理和长文本分割策略(512标记窗口+128步长)也增加了数据标准化的复杂度。
常用场景
经典使用场景
ClinText-SP数据集作为目前最大的公开西班牙语临床语料库,其经典使用场景主要集中在临床自然语言处理(NLP)任务中。该数据集通过整合来自医学期刊的临床案例、共享任务的标注语料库以及其他多样化的医疗文本资源,为研究者提供了一个丰富且多样化的数据平台。其典型应用包括命名实体识别(NER)、多标签分类以及临床文本的语义分析。这些任务在电子健康记录(EHR)处理、临床决策支持系统以及医学信息提取等领域具有广泛的研究价值。
解决学术问题
ClinText-SP数据集解决了西班牙语临床NLP领域长期存在的高质量公开数据稀缺问题。通过提供大规模的临床文本资源,该数据集显著提升了模型在临床实体识别、疾病分类和医疗文档分析等任务中的性能。其意义在于填补了西班牙语临床语言模型的训练空白,为跨语言医疗NLP研究提供了重要基准。影响方面,该数据集推动了RigoBERTa Clinical等专用模型的开发,并在多项基准测试中实现了性能突破,为临床文本的自动化处理奠定了数据基础。
衍生相关工作
围绕ClinText-SP数据集已衍生出多项经典研究工作。最具代表性的是RigoBERTa Clinical语言模型,该模型通过领域自适应预训练在多项西班牙语临床NLP任务中刷新了性能记录。此外,基于该数据集的消融研究验证了不同数据组件(如医学期刊案例与共享任务语料)对模型性能的贡献。相关成果还催生了针对特定临床子领域(如肿瘤学、心脏病学)的专用语料库构建方法,推动了跨机构协作的临床NLP共享任务发展。
以上内容由遇见数据集搜集并总结生成



