SYMPCODER

Name: SYMPCODER
Creator: 史蒂文斯理工学院
Published: 2025-04-04 05:57:17
License: 暂无描述

arXiv2025-04-04 更新2025-04-08 收录

下载链接：

http://arxiv.org/abs/2504.03051v1

下载链接

链接失效反馈

官方服务：

资源简介：

SYMPCODER数据集是由史蒂文斯理工学院的研究人员创建的，基于美国疾病控制与预防中心(CDC)和食品与药物管理局(FDA)管理的疫苗不良事件报告系统(VAERS)报告。该数据集包括三个变体，分别为SYMPCODER-Full、SYMPCODER-Common-50和SYMPCODER-Rare-50，涵盖了常见和罕见不良事件的报告。数据集经过人工注释，提供了症状提及和与疫苗不良事件相关的MedDRA编码的详细标注，旨在为医疗症状编码的研究和模型训练提供支持。

The SYMPCODER dataset was developed by researchers at the Stevens Institute of Technology, based on reports from the Vaccine Adverse Event Reporting System (VAERS) administered by the U.S. Centers for Disease Control and Prevention (CDC) and the U.S. Food and Drug Administration (FDA). The dataset includes three variants: SYMPCODER-Full, SYMPCODER-Common-50, and SYMPCODER-Rare-50, covering reports of both common and rare adverse events. The dataset has undergone manual annotation, providing detailed annotations of symptom mentions and Medical Dictionary for Regulatory Activities (MedDRA) codes associated with vaccine adverse events, aiming to support research and model training for medical symptom coding.

提供机构：

史蒂文斯理工学院

创建时间：

2025-04-04

搜集汇总

数据集介绍

构建方式

SYMPCODER数据集的构建基于疫苗不良事件报告系统（VAERS）的临床文本，通过严格的人工标注流程确保数据质量。研究团队随机选取了500份VAERS报告（1990-2023年），由三名标注员和一名验证员进行双阶段标注：标注阶段采用定制化工具对症状提及进行细粒度标记，验证阶段通过专家复核解决歧义标注。最终形成的487份有效报告被划分为SYMPCODER-Full（全量数据）、SYMPCODER-Common-50（高频症状子集）和SYMPCODER-Rare-50（低频症状子集）三个变体，覆盖不同频率的医学症状表达。

使用方法

研究者可通过两阶段评估框架利用该数据集：LINK阶段评估症状与标准术语的链接准确率（EM/Fuzzy匹配），MATCH阶段分析原始症状提及的语义保真度（BLEU/相似度指标）。配套提供的TACO提示框架将症状提取与链接任务统一，支持GPT-4等大语言模型端到端处理临床文本。数据集特别适用于验证模型在药物警戒场景下的细粒度症状编码能力，其分层设计支持针对常见/罕见症状的差异化性能分析。

背景与挑战

背景概述

SYMPCODER数据集由Stevens Institute of Technology的研究团队于2025年创建，旨在解决从非结构化临床文本中准确编码医学症状的挑战。该数据集基于疫苗不良事件报告系统（VAERS）的报告，专注于将症状提及与标准化词汇（如MedDRA）进行链接。SYMPCODER的创建填补了医学症状编码领域专用数据集的空白，为药物警戒和安全监测提供了重要资源。其核心研究问题是通过统一症状提取和链接任务，提升大型语言模型（LLMs）在医学文本处理中的准确性和灵活性。

当前挑战

SYMPCODER数据集面临的挑战主要包括两个方面：1) 领域问题的挑战：医学症状编码需要处理高度可变和非正式的临床叙述，准确提取和链接症状至标准化词汇具有较高难度，尤其是罕见或模糊症状的识别。2) 构建过程的挑战：数据集的构建依赖于人工标注，需要处理临床文本的复杂性和多样性，确保标注的一致性和准确性。此外，数据集中罕见症状的稀疏性也增加了模型训练的难度。

常用场景

经典使用场景

SYMPCODER数据集在医学症状编码领域具有广泛的应用价值，尤其在疫苗不良反应监测系统中表现突出。该数据集通过整合非结构化的临床文本和标准化的医学词汇表（如MedDRA），为研究人员提供了一个可靠的基准。其经典使用场景包括从疫苗不良反应报告中提取症状并将其映射到标准术语，从而支持药物警戒和安全监测。数据集的设计特别关注症状提取和链接的整合，解决了传统方法中因独立处理这两项任务而导致的信息丢失问题。

解决学术问题

SYMPCODER数据集解决了医学自然语言处理中的多个关键学术问题。首先，它填补了专门针对症状编码任务的数据集空白，为相关研究提供了标准化评估基准。其次，通过引入Task as Context (TACO) Prompting框架，数据集有效解决了传统方法中症状提取和链接任务分离导致的性能瓶颈问题。此外，数据集还支持对罕见症状的编码研究，通过SYMPCODER-Rare-50子集，为模型在稀疏数据场景下的性能评估提供了可能。

实际应用

在实际应用中，SYMPCODER数据集为疫苗安全监测系统（如VAERS）提供了强大的技术支持。通过自动化症状编码流程，该系统能够快速识别和分类不良反应报告中的症状，显著提升了药物警戒工作的效率。此外，数据集还可应用于临床决策支持系统，帮助医生从非结构化电子健康记录中提取关键症状信息，从而优化诊断和治疗方案。其标准化输出格式也便于与现有医疗信息系统集成，推动医疗数据的互操作性。

数据集最近研究