COMETA

Name: COMETA
Creator: 剑桥大学语言技术实验室
Published: 2020-10-08 20:01:55
License: 暂无描述

arXiv2020-10-08 更新2024-06-21 收录

下载链接：

https://www.siphs.org/

下载链接

链接失效反馈

官方服务：

资源简介：

COMETA数据集是由剑桥大学语言技术实验室创建的，包含20,015条来自Reddit的英文生物医学实体提及，这些提及均由专家标注并与SNOMED CT知识图谱链接。数据集涵盖了从症状、疾病到化学物质、基因等多种概念，旨在解决社交媒体中健康领域实体链接的复杂性问题。创建过程中，研究人员从Reddit中筛选并爬取了高质量的健康相关讨论，通过Flair NER系统识别实体，并由专业注释者进行标注。COMETA数据集的应用领域主要集中在提升社交媒体中健康相关文本的实体链接技术，特别是在处理非正式语言和复杂医学术语时的挑战。

The COMETA dataset was developed by the Language Technology Laboratory at the University of Cambridge. It contains 20,015 English biomedical entity mentions collected from Reddit, all of which were expert-annotated and linked to the SNOMED CT knowledge graph. The dataset covers a diverse set of concepts spanning symptoms, diseases, chemical substances, genes, and more, and is designed to address the complexities of entity linking in the healthcare domain on social media. During its construction, researchers filtered and crawled high-quality health-related discussions from Reddit, identified entities using the Flair NER system, and had the entities annotated by professional annotators. The primary applications of the COMETA dataset focus on advancing entity linking technologies for health-related texts on social media, particularly overcoming the challenges posed by informal language and complex medical terminology.

提供机构：

剑桥大学语言技术实验室

创建时间：

2020-10-07

搜集汇总

数据集介绍

构建方式

在社交媒体健康信息理解领域，COMETA数据集的构建体现了严谨的学术流程。研究团队首先从Reddit平台68个健康主题板块中，依据内容质量与用户参与度标准，系统性地爬取了2015年至2018年间的公开讨论，形成初始语料库。随后，利用在健康论坛数据上训练的命名实体识别系统，从随机抽样的10万条讨论中自动识别出超过6.5万个生物医学实体提及。为保障研究伦理与用户隐私，团队对语料进行了匿名化处理，并筛选出至少被五位用户使用的术语。最终，由两位拥有生物医学博士学位的专家对最常出现的8000个实体进行人工标注，将其链接至SNOMED CT知识图谱中的标准概念，形成了包含2万个实体提及的高质量标注语料。

特点

COMETA数据集的核心特点在于其针对社交媒体非正式医疗语言的深度覆盖与高质量标注。该数据集包含了从症状、疾病到解剖结构、化学物质等广泛生物医学概念的2万个实体提及，其规模在用户生成内容的医学实体链接领域位居前列。尤为突出的是，每个实体均提供了“通用”与“特定”两个层级的SNOMED CT概念标注，前者捕捉术语的字面含义，后者则结合上下文进行精确的语义消歧，这极大地提升了数据集的语义丰富度与任务挑战性。此外，数据集精心设计了分层与零样本两种数据划分策略，既能评估模型对已知概念新表述的泛化能力，也能严格测试其在完全未见概念上的推理性能，为模型评估提供了多维度的可靠基准。

使用方法

COMETA数据集主要服务于生物医学自然语言处理，特别是社交媒体文本的实体链接任务研究。使用者可依据其提供的分层或零样本划分，训练和评估各类实体链接模型。该数据集支持从基础的字符串匹配、编辑距离算法，到融合上下文信息的神经模型（如基于BERT的模型）等多种技术路线的性能对比。研究人员可通过分析模型在不同划分、不同标注层级（通用与特定）上的表现，深入探究模型处理非正式医疗术语、上下文依赖消歧以及零样本推理的能力。数据集发布的预训练嵌入与基准代码，为复现与比较实验结果提供了便利，使其成为推动该领域技术发展的关键评测资源。

背景与挑战

背景概述

COMETA（在线医学实体语料库）由剑桥大学语言技术实验室于2020年推出，旨在解决社交媒体中医学实体链接的复杂挑战。该数据集包含从Reddit平台收集的2万条英文生物医学实体提及，并由专家标注链接至广泛使用的医学知识图谱SNOMED CT。其核心研究问题聚焦于如何将非专业语境下的医学术语准确映射至标准化概念，以弥合公众健康表达与临床知识体系之间的语义鸿沟。该资源以其规模、覆盖范围与标注质量，为健康信息学与自然语言处理领域的交叉研究提供了关键基础设施，推动了面向社交媒体文本的医学实体理解技术的发展。

当前挑战

COMETA所针对的医学实体链接任务面临两大核心挑战：在领域问题层面，社交媒体文本中普遍存在的口语化表达、拼写错误、术语缩写及语义模糊性，使得传统基于结构化电子病历的实体链接模型性能显著下降；同时，医学概念本身的复杂性与上下文依赖性要求模型具备深层次的语义推理能力。在构建过程中，挑战主要体现在高质量标注的获取上，包括需要生物医学专家对非规范术语进行精准消歧，以及处理用户生成内容中的隐私保护与伦理问题。此外，数据集的零样本评估场景揭示了模型对未见概念泛化能力的严重不足，凸显了当前方法在跨模态对齐与低资源学习方面的局限性。

常用场景

经典使用场景

在社交媒体健康信息理解领域，COMETA数据集为实体链接任务提供了关键基准。该数据集从Reddit平台采集了2万条英文生物医学实体提及，并由专家标注至SNOMED CT知识图谱，专门针对非专业医疗对话中的术语复杂性设计。其经典使用场景在于评估和开发能够处理口语化表达、拼写变异及语境依赖推理的实体链接模型，特别是在零样本概念识别场景下，为模型应对真实世界医疗社交媒体文本的多样性挑战提供了标准化测试平台。

衍生相关工作

基于COMETA的评估框架，研究社区衍生出多类创新性工作。在模型架构方面，受其多层级注意力机制启发，后续研究发展了融合图神经网络与语境化表征的混合式实体链接模型。在跨领域迁移方面，学者利用COMETA验证了从生物医学文献到社交媒体领域的知识迁移有效性。此外，该数据集促进了如MedRED、TwiMed等社交媒体医疗文本资源的标注规范统一，并催生了针对医疗缩略语消歧、术语标准化等子任务的专项研究，形成了以用户生成为中心的医疗自然语言处理研究分支。

数据集最近研究