COMETA

arXiv2025-09-30 收录

下载链接：

https://github.com/cambridgeltl/cometa

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是带有SNOMED注释的最大公共社交媒体数据集之一，包含了四种不同的训练、开发、测试划分方式：分层一般（SG）、分层特定（SS）、零样本一般（ZG）和零样本特定（ZS）。此外，它还包含了用于训练、开发和测试的多重划分。该数据集的任务是零样本医学实体检索。

This dataset is one of the largest public social media datasets annotated with SNOMED. It encompasses four distinct training, development, and test split schemes: stratified general (SG), stratified specific (SS), zero-shot general (ZG), and zero-shot specific (ZS). Additionally, it includes multiple splits designed for training, development, and testing. The core task supported by this dataset is zero-shot medical entity retrieval.

搜集汇总

数据集介绍

构建方式

社交媒体已成为公众分享健康相关经验与情感的重要平台，然而现有实体链接数据集难以应对非专业语言中医学术语的复杂性。为填补这一空白，研究者构建了COMETA语料库。该语料库从Reddit平台68个健康主题子版块中爬取2015至2018年间超过80万条讨论，经匿名化处理后，利用基于HealthUnlocked论坛数据训练的Flair命名实体识别系统筛选出6.5万个候选实体。最终，由两位拥有生物医学博士学位的专业标注员，依据SNOMED CT知识图谱，对其中最常出现的8000个实体进行标注，为每个实体分配通用与特定两种粒度的概念标识，并附上上下文例句与来源链接，形成包含20015个实体提及的高质量语料。

特点

COMETA语料库具备多重独特属性。在规模上，它以2万条实体提及成为当前最大的社交媒体医学实体链接资源。在覆盖面上，实体涵盖临床发现、物质、身体结构、操作、药物等90%以上的SNOMED领域，语义多样性显著。在质量上，经双人评估验证，93.5%的标注获得最高评分，确保了标注的一致性。尤为重要的是，语料库设计了分层抽样与零样本两种划分策略：分层划分确保测试集概念在训练集中出现，但表面形式可能不同；零样本划分则完全测试模型对未知概念的泛化能力，真实模拟了实际应用中概念覆盖不全的挑战。此外，每个实体均提供通用与特定两层标注，后者需结合上下文进行消歧，构成了更具难度的实体链接任务。

使用方法

COMETA语料库为医学社交媒体实体链接研究提供了标准化评估框架。研究者可直接使用其提供的分层与零样本两种划分，分别测试模型对已知概念与未知概念的链接能力。基线实验表明，基于字符串匹配的Stoilos距离方法在零样本场景下表现强劲，而结合词典、字符串匹配与神经网络的回退策略则能取得最佳综合性能，例如在分层划分上达到79%的准确率。推荐的评估指标包括Top-1与Top-10准确率及平均倒数排名。语料库的嵌入向量与基线代码均已开源，便于复现与扩展。未来工作可探索跨模态对齐、迁移学习及重排序机制，以进一步提升在非专业医学语言上的实体链接效果。

背景与挑战

背景概述

社交媒体已成为公众分享健康体验与情感的重要平台，然而，非专业用户生成内容中充斥着口语化表达、拼写错误及缩写，使得传统实体链接技术难以有效解析医学概念。为填补这一空白，剑桥大学语言技术实验室联合伦敦大学学院的研究团队于2020年发布了COMETA语料库，该数据集从Reddit健康论坛中精选约2万条生物医学实体提及，由领域专家标注至SNOMED CT知识图谱，涵盖症状、疾病、药物等丰富类别，规模与语义多样性均超越现有资源，为社交媒体环境下的医学实体链接研究提供了关键基准。

当前挑战

COMETA所面临的挑战首先源于领域问题的复杂性：非专业语言中的口语化症状描述（如“scratchy throat”对应“咽干”）、术语组合性（如“lower right abdomen”需解析为解剖结构）及模糊推断（如“up all night cleaning”关联强迫症）均需深层语境理解。其次，构建过程中需应对标注歧义，例如“UI”可指尿路感染或尿失禁，导致专家间一致性降低；同时，零样本场景下模型需识别训练中未见的SNOMED概念，而现有字典与神经方法在跨模态对齐及低资源学习上仍存在显著性能差距，最佳方案仍需融合多视角数据。

常用场景

经典使用场景

在社交媒体健康文本的语义理解领域，COMETA语料库为医学实体链接任务提供了前所未有的基准。该数据集聚焦于Reddit平台上用户生成的健康讨论，涵盖20,000个由领域专家标注的医学术语提及，并映射至SNOMED CT知识图谱。其经典使用场景在于评估和比较不同实体链接系统在非专业语言环境下的表现，尤其适用于处理口语化表达、拼写错误、缩略词及上下文依赖的多义词等复杂情况。通过分层采样和零样本采样两种评估设置，研究者可系统检验模型对已知概念与全新概念的泛化能力。

衍生相关工作

COMETA语料库催生了一系列具有影响力的后续研究工作。在方法层面，研究者基于该数据集提出了多层级注意力机制优化BERT模型，通过动态融合不同Transformer层的上下文表示来增强对医学术语的语义理解。在系统集成方面，回溯式组合策略被证明是当前最优方案，即先应用词典匹配，再降级至字符串相似度算法，最后调用神经模型处理未命中案例，这种分层架构有效融合了不同方法的互补优势。此外，该数据集还激发了对跨领域迁移学习的探索，例如将医学文献预训练的知识迁移至社交媒体领域，以及开发针对SNOMED知识图谱的图嵌入方法以改善零样本实体链接性能。

数据集最近研究