five

COMETA

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/cambridgeltl/cometa
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是带有SNOMED注释的最大公共社交媒体数据集之一,包含了四种不同的训练、开发、测试划分方式:分层一般(SG)、分层特定(SS)、零样本一般(ZG)和零样本特定(ZS)。此外,它还包含了用于训练、开发和测试的多重划分。该数据集的任务是零样本医学实体检索。

This dataset is one of the largest public social media datasets annotated with SNOMED. It encompasses four distinct training, development, and test split schemes: stratified general (SG), stratified specific (SS), zero-shot general (ZG), and zero-shot specific (ZS). Additionally, it includes multiple splits designed for training, development, and testing. The core task supported by this dataset is zero-shot medical entity retrieval.
搜集汇总
数据集介绍
main_image_url
构建方式
社交媒体已成为公众分享健康相关经验与情感的重要平台,然而现有实体链接数据集难以应对非专业语言中医学术语的复杂性。为填补这一空白,研究者构建了COMETA语料库。该语料库从Reddit平台68个健康主题子版块中爬取2015至2018年间超过80万条讨论,经匿名化处理后,利用基于HealthUnlocked论坛数据训练的Flair命名实体识别系统筛选出6.5万个候选实体。最终,由两位拥有生物医学博士学位的专业标注员,依据SNOMED CT知识图谱,对其中最常出现的8000个实体进行标注,为每个实体分配通用与特定两种粒度的概念标识,并附上上下文例句与来源链接,形成包含20015个实体提及的高质量语料。
特点
COMETA语料库具备多重独特属性。在规模上,它以2万条实体提及成为当前最大的社交媒体医学实体链接资源。在覆盖面上,实体涵盖临床发现、物质、身体结构、操作、药物等90%以上的SNOMED领域,语义多样性显著。在质量上,经双人评估验证,93.5%的标注获得最高评分,确保了标注的一致性。尤为重要的是,语料库设计了分层抽样与零样本两种划分策略:分层划分确保测试集概念在训练集中出现,但表面形式可能不同;零样本划分则完全测试模型对未知概念的泛化能力,真实模拟了实际应用中概念覆盖不全的挑战。此外,每个实体均提供通用与特定两层标注,后者需结合上下文进行消歧,构成了更具难度的实体链接任务。
使用方法
COMETA语料库为医学社交媒体实体链接研究提供了标准化评估框架。研究者可直接使用其提供的分层与零样本两种划分,分别测试模型对已知概念与未知概念的链接能力。基线实验表明,基于字符串匹配的Stoilos距离方法在零样本场景下表现强劲,而结合词典、字符串匹配与神经网络的回退策略则能取得最佳综合性能,例如在分层划分上达到79%的准确率。推荐的评估指标包括Top-1与Top-10准确率及平均倒数排名。语料库的嵌入向量与基线代码均已开源,便于复现与扩展。未来工作可探索跨模态对齐、迁移学习及重排序机制,以进一步提升在非专业医学语言上的实体链接效果。
背景与挑战
背景概述
社交媒体已成为公众分享健康体验与情感的重要平台,然而,非专业用户生成内容中充斥着口语化表达、拼写错误及缩写,使得传统实体链接技术难以有效解析医学概念。为填补这一空白,剑桥大学语言技术实验室联合伦敦大学学院的研究团队于2020年发布了COMETA语料库,该数据集从Reddit健康论坛中精选约2万条生物医学实体提及,由领域专家标注至SNOMED CT知识图谱,涵盖症状、疾病、药物等丰富类别,规模与语义多样性均超越现有资源,为社交媒体环境下的医学实体链接研究提供了关键基准。
当前挑战
COMETA所面临的挑战首先源于领域问题的复杂性:非专业语言中的口语化症状描述(如“scratchy throat”对应“咽干”)、术语组合性(如“lower right abdomen”需解析为解剖结构)及模糊推断(如“up all night cleaning”关联强迫症)均需深层语境理解。其次,构建过程中需应对标注歧义,例如“UI”可指尿路感染或尿失禁,导致专家间一致性降低;同时,零样本场景下模型需识别训练中未见的SNOMED概念,而现有字典与神经方法在跨模态对齐及低资源学习上仍存在显著性能差距,最佳方案仍需融合多视角数据。
常用场景
经典使用场景
在社交媒体健康文本的语义理解领域,COMETA语料库为医学实体链接任务提供了前所未有的基准。该数据集聚焦于Reddit平台上用户生成的健康讨论,涵盖20,000个由领域专家标注的医学术语提及,并映射至SNOMED CT知识图谱。其经典使用场景在于评估和比较不同实体链接系统在非专业语言环境下的表现,尤其适用于处理口语化表达、拼写错误、缩略词及上下文依赖的多义词等复杂情况。通过分层采样和零样本采样两种评估设置,研究者可系统检验模型对已知概念与全新概念的泛化能力。
衍生相关工作
COMETA语料库催生了一系列具有影响力的后续研究工作。在方法层面,研究者基于该数据集提出了多层级注意力机制优化BERT模型,通过动态融合不同Transformer层的上下文表示来增强对医学术语的语义理解。在系统集成方面,回溯式组合策略被证明是当前最优方案,即先应用词典匹配,再降级至字符串相似度算法,最后调用神经模型处理未命中案例,这种分层架构有效融合了不同方法的互补优势。此外,该数据集还激发了对跨领域迁移学习的探索,例如将医学文献预训练的知识迁移至社交媒体领域,以及开发针对SNOMED知识图谱的图嵌入方法以改善零样本实体链接性能。
数据集最近研究
最新研究方向
在公共卫生监测与社交媒介健康信息挖掘的交叉领域中,实体链接技术正面临从规范临床文本向非专业用户生成内容迁移的核心挑战。COMETA语料库的提出,精准回应了社交平台健康讨论中术语非标准化、语境依赖性强及知识图谱覆盖不足的痛点。该数据集基于Reddit平台20,000条生物医学实体标注,链接至SNOMED CT标准知识图谱,构建了兼具规模、多样性与高质量的人机协同注释体系。前沿研究聚焦于零样本学习场景下的跨模态对齐与低资源泛化能力,尤其关注BERT多层注意力机制对非正式语言中多义词、缩略语及口语化表达的上下文感知增强。实验表明,词典匹配与神经模型结合的退避策略在分层评估中表现最优,但零样本设定下仍存在显著性能缺口,这推动了面向社交健康数据的迁移学习与图结构嵌入融合的探索。COMETA不仅为医学实体链接设立了更具生态效度的基准,更成为连接公众健康诉求与临床知识体系的关键桥梁。
相关研究论文
  • 1
    COMETA: A Corpus for Medical Entity Linking in the Social Media剑桥大学语言技术实验室 · 2020年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作