VSAC价值集语料库

Name: VSAC价值集语料库
Creator: 甲骨文健康数据智能
Published: 2026-04-16 12:57:21
License: 暂无描述

arXiv2026-04-16 更新2026-04-18 收录

下载链接：

https://github.com/mukhes3/RASC

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由甲骨文健康数据智能团队构建，收录了来自VSAC的11,803个临床价值集，涵盖15种术语系统和847个发布机构。数据规模庞大，包含中位数9个代码/集（95%分位数312个），80.4%的集合无人工描述。数据集通过HL7 FHIR API批量获取，经过去重和过滤（剔除代码数少于3的集合）处理，形成首个临床价值集构建的基准。其核心应用为自动化临床概念编码，通过检索增强分类框架（RASC）解决传统人工标注效率低下的问题，显著提升临床质量测量和表型分析的效率。

This dataset was constructed by the Oracle Health Data Intelligence Team, and contains 11,803 clinical value sets sourced from the Value Set Authority Center (VSAC). It covers 15 terminology systems and 847 publishing organizations. Boasting a substantial scale, the dataset has a median of 9 codes per set (95th percentile: 312 codes), with 80.4% of the sets having no accompanying manual descriptions. The dataset was acquired in bulk via the HL7 FHIR API, then subjected to deduplication and filtering (removing sets with fewer than 3 codes), thereby establishing the first benchmark for clinical value set construction. Its core use case is automated clinical concept coding: it addresses the low efficiency issue of traditional manual annotation through the Retrieval-Augmented Classification (RASC) framework, significantly improving the efficiency of clinical quality measurement and phenotypic analysis.

提供机构：

甲骨文健康数据智能

创建时间：

2026-04-16

原始信息汇总

RASC 数据集概述

数据集基本信息

数据集名称：RASC
关联论文："Retrieve, Then Classify: Corpus-Grounded Automation of Clinical Value Set Authoring"
数据来源：VSAC (Value Set Authority Center)
访问要求：需要有效的 UMLS API 密钥以获取原始数据

数据集内容与结构

原始数据：不包含在代码库中，需用户自行下载
发布内容：包含轻量级分割清单文件 split_manifest_release.jsonl
数据重建：需通过提供的脚本流程，使用本地下载的 VSAC 内容重建用于训练的数据集工件

数据重建流程

下载 VSAC 内容：使用 UMLS API 密钥运行 download_vsac.py，将本地语料库写入 vsac_data/ 目录。
构建语义检索索引：运行 build_index.py，使用 SAPBERT 进行 title 检索，将 FAISS 索引写入 vsac_index/ 目录。
重建数据集工件：运行 build_dataset.py，指定相关目录和参数（如 --top-k 10， --holdout-publishers "Clinical Architecture" "CSTE Steward"），在 dataset/ 目录下生成训练、验证、测试的元数据文件、嵌入文件、分割清单及统计数据。
匹配发布清单：运行 release_manifest.py recover，将本地下载的数据与发布的轻量级清单进行匹配。

生成的数据集文件

重建后，在 dataset/ 目录下生成以下文件：

train_meta.pkl
val_meta.pkl
test_meta.pkl
title_embs.npz
code_embs.npz
split_manifest.jsonl
dataset_stats.json

模型训练支持

数据集用于支持以下模型的训练：

MLP
LightGBM
Cross-Encoder 各模型均提供独立的训练脚本，并支持在验证集上进行可选的阈值调优。

重要说明

发布的清单为轻量级，不包含任何 VSAC 内容。
原始值集内容必须由每个用户使用自己的 UMLS 凭证在本地下载。
训练脚本期望在 dataset/ 目录下找到重建的数据集工件。

搜集汇总

数据集介绍

构建方式

在临床信息学领域，构建高质量的价值集对于标准化临床概念定义至关重要。VSAC价值集语料库的构建过程始于通过HL7 FHIR ValueSet/$expand API批量下载所有公开可用的价值集，这些数据在UMLS许可下获取。经过筛选，排除了包含少于三个代码的价值集，最终形成了包含11,803个价值集的语料库，涵盖了15个术语系统和847个发布机构。每个价值集的大小呈现重尾分布，中位数为9个代码，95%分位数为312个代码，其中超过80%的价值集缺乏人工编写的描述，且多数仅从单一系统中提取代码。

特点

该数据集的特点体现在其规模与多样性上，作为首个大规模临床价值集构建基准，它提供了丰富的结构化信息。语料库中的价值集覆盖了广泛的临床类型，如条件/诊断、实验室/观察和药物等，且代码系统以SNOMED-CT和ICD-10-CM为主导。数据分布高度集中，少数发布机构贡献了大部分价值集，同时价值集的大小和类型存在显著异质性，这为模型评估提供了分层分析的基础。此外，数据集中缺乏描述性文本的比例较高，这促使在嵌入表示中仅依赖标题信息，确保了推理时的一致性。

使用方法

在临床质量测量和表型分析中，该数据集的使用方法侧重于支持检索增强集合完成框架的评估。用户可通过提供的代码下载脚本重建语料库，并利用分割清单恢复相同的训练、验证和测试划分，确保实验的可重复性。数据集适用于多种分类模型，如LightGBM、多层感知机和交叉编码器，通过语义检索构建候选池，并将代码包含问题转化为二元分类任务。评估时采用价值集级别的宏平均指标，同时支持按类型、大小和发布机构进行分层分析，以全面衡量模型性能。

背景与挑战

背景概述

VSAC价值集语料库作为临床信息学领域的重要资源，其构建源于临床质量测量与表型分析中价值集编纂的自动化需求。该数据集由Oracle Health Data Intelligence的研究团队于2026年4月正式提出，核心研究问题聚焦于如何从标准化临床术语中精准识别定义特定临床概念的所有代码，以替代传统依赖临床信息学家手动搜索与判定的繁琐流程。基于美国国家医学图书馆维护的Value Set Authority Center平台，该语料库整合了11,803个公开可用的价值集，涵盖SNOMED-CT、ICD-10-CM等15种术语体系，为临床决策支持与电子健康记录分析提供了结构化基础，显著推动了检索增强集合补全等机器学习方法在医疗知识工程中的应用。

当前挑战

VSAC价值集语料库面临的挑战主要体现在领域问题与构建过程两个维度。在领域层面，临床价值集编纂要求从规模达10^5至10^6的术语宇宙中提取完整且精确的代码子集，其核心难点在于平衡召回率与精确度，同时避免因代码版本更迭或术语异构性导致的语义漂移。构建过程中，数据稀疏性与标注一致性构成主要障碍：超过80%的价值集缺乏人工描述文本，迫使模型仅能依赖简短标题进行语义嵌入；且价值集规模呈现重尾分布，其中小型集合的样本代表性不足，而大型集合又涉及多系统代码混合，增加了特征表征与跨出版机构泛化的复杂性。此外，术语体系的动态更新与临床概念的多义性进一步加剧了检索覆盖与分类器泛化之间的权衡难度。

常用场景

经典使用场景

在临床信息学领域，VSAC价值集语料库作为标准化医学词汇的权威集合，其经典应用场景聚焦于自动化临床价值集构建任务。该语料库通过整合大量专家标注的价值集，为检索增强集合补全框架提供了丰富的参考基础，使得机器学习模型能够从历史标注中学习概念与代码间的复杂映射关系，从而显著提升新价值集构建的准确性与效率。

实际应用

在实际医疗信息系统中，VSAC价值集语料库支撑了电子健康记录驱动的临床决策支持与质量报告自动化。通过基于该语料库训练的模型，医疗机构能够快速生成符合标准术语（如SNOMED-CT、ICD-10-CM）的临床概念代码集，用于患者队列识别、公共卫生监测以及合规性报告，从而降低对稀缺临床信息学专家资源的依赖，提升医疗数据互操作性与分析流程的规模化能力。

衍生相关工作

该语料库的发布催生了一系列围绕检索增强集合补全范式的经典研究工作。例如，基于SAPBert预训练模型的交叉编码器被广泛用于优化代码相关性分类；同时，研究社区将RASC框架扩展至基因面板构建与系统综述文献筛选等相似结构领域，验证了其在大型结构化词汇库上解决子集选择问题的通用性，进一步推动了跨领域知识表示与自动化标注技术的发展。

以上内容由遇见数据集搜集并总结生成