PHEE

Name: PHEE
Creator: 华威大学计算机科学系
Published: 2022-10-23 05:57:42
License: 暂无描述

arXiv2022-10-23 更新2024-06-21 收录

下载链接：

https://github.com/ZhaoyueSun/PHEE

下载链接

链接失效反馈

官方服务：

资源简介：

PHEE数据集由华威大学计算机科学系开发，包含超过5000个从医学案例报告和生物医学文献中标注的事件，是目前最大的公开此类数据集。该数据集设计了层次化的事件模式，提供患者人口统计、治疗和（副作用）效果的粗粒度和细粒度信息。主要用于药物安全研究，旨在通过自动化分析快速识别安全信号，解决药物副作用相关事件的检测和理解问题。

The PHEE dataset was developed by the Department of Computer Science at the University of Warwick. It contains over 5,000 annotated events extracted from medical case reports and biomedical literature, making it the largest publicly available dataset of its kind to date. The dataset features a hierarchical event schema, providing coarse-grained and fine-grained information on patient demographics, treatment efficacy, and adverse side effects. Primarily utilized for pharmacovigilance research, it aims to rapidly identify safety signals through automated analysis, addressing the challenges of detecting and understanding drug-related adverse events.

提供机构：

华威大学计算机科学系

创建时间：

2022-10-23

搜集汇总

数据集介绍

构建方式

在药物安全监测领域，构建高质量标注数据集对于开发自动化文本分析模型至关重要。PHEE数据集的构建基于现有医学病例报告摘要，主要源自ADE和PHAEDRA两个公开语料库。研究团队从这些摘要中筛选出包含至少一个药物不良事件或潜在治疗效应事件的句子，经过去重处理后获得超过4800个句子。标注过程采用两阶段分层策略：第一阶段由标注者识别事件触发词及主体、治疗、效果等主要论元；第二阶段由不同标注者核查并细化标注，补充患者人口统计学信息、药物剂量、给药途径等子论元细节。为确保标注质量，团队实施了多轮标注试验与一致性讨论，并随机复制部分样本以计算标注者间一致性，最终形成了包含5019个标注事件的精细语料库。

使用方法

PHEE数据集主要用于训练和评估药物警戒事件抽取的自然语言处理模型。研究者可将其划分为训练集、开发集和测试集，基于文档进行随机分割以确保数据分布的合理性。在模型开发中，可利用该数据集评估序列标注、抽取式问答和生成式问答等多种技术路线。具体而言，序列标注方法将事件结构编码为令牌级标签进行联合建模；抽取式问答方法通过多轮提问逐步抽取事件触发词和论元；生成式问答方法则通过生成文本序列一次性输出事件结构。评估指标包括事件触发词识别的F1分数、论元抽取的精确匹配F1和令牌级F1等。数据集的分层标注结构支持模型同时学习粗粒度和细粒度信息提取，有助于推动药物警戒领域事件抽取技术向更深层次的语义理解发展。

背景与挑战

背景概述

药物警戒作为监测与评估药物安全性的关键学科，其核心在于及时识别药物不良反应以保障公共健康。然而，传统依赖人工审阅自发报告与医学文献的方式效率低下，难以应对日益增长的数据规模。在此背景下，自然语言处理技术为自动化分析提供了可能，但公开可用的标注数据资源却极为匮乏。为此，华威大学、阿斯利康等机构的研究团队于2022年联合发布了PHEE数据集，专门用于从文本中提取药物警戒事件。该数据集包含超过5000个从医学病例报告中标注的事件，涵盖患者人口统计学、治疗方案及药物效应等多层次信息，成为迄今该领域规模最大、标注最细致的公开资源，显著推动了药物警戒事件自动化提取的研究进程。

当前挑战

PHEE数据集致力于解决药物警戒事件提取这一复杂任务，其核心挑战在于从非结构化医学文本中精准识别并结构化描述药物不良反应与潜在治疗效应。具体而言，该任务需克服医学实体（如药物、疾病）的语义模糊性、嵌套事件结构的解析难度以及上下文信息的整合问题。在数据集构建过程中，研究者面临多重挑战：一是标注框架的设计需平衡粒度与复杂性，既要捕获剂量、用药途径等细节，又要避免标注负担过重；二是医学文本的专业性要求标注者具备相应知识背景，导致标注一致性难以保障，尤其在时间表达、疾病状态等细粒度属性上出现显著分歧；三是数据稀疏性问题，尽管规模已属最大，但部分罕见论元类型（如持续时间、种族）的样本有限，制约了模型的泛化能力。

常用场景

经典使用场景

在药物安全监测领域，PHEE数据集为自然语言处理模型提供了关键的训练与评估基准。该数据集从医学病例报告和生物医学文献中提取了超过5000个标注事件，其层级化的事件模式能够同时捕捉粗粒度和细粒度的患者人口统计学、治疗方案及副作用信息。这一结构使得PHEE成为当前最大且最全面的公开药物警戒事件抽取数据集，为研究者提供了丰富的语义标注资源，以支持对复杂医疗文本的深度解析。

解决学术问题

PHEE数据集有效解决了药物警戒研究中信息抽取的若干核心难题。传统数据集通常仅标注药物与副作用之间的二元关系，忽略了患者背景、多药联用等关键上下文信息。PHEE通过引入层级化的事件模式，不仅标注了事件触发词和主要论元，还细化了患者年龄、性别、种族、药物剂量、给药途径等子论元，从而能够支持对复杂临床场景的建模。这为开发更精准的自动化药物不良反应检测系统奠定了数据基础，推动了生物医学事件抽取技术向更深层次的语义理解发展。

实际应用

在实际应用中，PHEE数据集为制药企业和监管机构提供了强大的工具，以自动化方式从海量非结构化文本中提取药物安全信号。通过利用该数据集训练的模型，可以高效扫描医学文献、电子健康记录甚至社交媒体中的病例报告，快速识别潜在的不良药物反应或治疗性效应。这种能力显著加速了药物安全监测流程，有助于早期发现风险信号，从而及时调整临床用药指南，降低患者伤害，提升公共卫生安全水平。

数据集最近研究