CoVERT
收藏arXiv2022-04-26 更新2024-06-21 收录
下载链接:
https://www.ims.uni-stuttgart.de/data/bioclaim
下载链接
链接失效反馈官方服务:
资源简介:
CoVERT数据集是由德国斯图加特大学机器语言处理研究所创建,专注于生物医学领域的COVID-19相关信息。该数据集包含300条经过事实核查的推文,每条推文都标注了医学命名实体和关系。数据集通过创新的众包方法进行标注,众包工作者在线搜索支持证据。CoVERT数据集旨在解决生物医学领域中COVID-19相关信息的自动事实核查问题,为该领域的信息准确性提供支持。
The CoVERT dataset was created by the Institute for Machine Language Processing, University of Stuttgart, Germany, focusing on COVID-19-related information in the biomedical domain. It contains 300 fact-checked tweets, each annotated with biomedical named entities and their relationships. The dataset was annotated through an innovative crowdsourcing method, where crowdworkers searched for supporting evidence online. The CoVERT dataset aims to address the automatic fact-checking problem of COVID-19-related information in the biomedical field, providing support for ensuring information accuracy in this domain.
提供机构:
斯图加特大学机器语言处理研究所
创建时间:
2022-04-26
搜集汇总
数据集介绍

构建方式
在生物医学信息学领域,社交媒体上关于COVID-19的海量信息中混杂着可能危害公众健康的虚假内容,构建高质量的事实核查数据集显得尤为重要。CoVERT数据集的构建始于从内部推文库中采样,通过医学主题词和频繁出现的术语筛选出38,251条与COVID-19相关的推文。随后,研究团队采用基于词袋模型的前馈神经网络对推文进行生物医学内容分类,并结合声明检测模型进一步过滤,最终随机选取300条包含因果关系的生物医学推文作为核心数据。每条推文均经过细致的命名实体和关系标注,涵盖医学状况、治疗、症状/副作用等实体类别及因果关系类型。此外,通过众包平台招募具有生物医学背景的标注者,对推文中的声明进行事实核查,标注者需在线搜索证据并给出支持、反驳或信息不足的裁决,同时提供证据文本和来源URL,确保了数据集的真实性和可追溯性。
特点
CoVERT数据集在生物医学事实核查领域展现出独特价值,其核心特点在于深度融合了社交媒体文本与专业医学标注。该数据集包含300条精心筛选的COVID-19相关推文,每条推文均标注了详细的医学命名实体和关系,如医学状况、治疗及因果关系,为下游任务提供了结构化信息。与众不同的是,数据集引入了创新的众包事实核查机制,由多名标注者独立搜索网络证据并给出裁决,形成了包含支持、反驳和信息不足三类标签的标注结果,并附有证据文本和来源URL,增强了数据的可信度和可解释性。数据集中实体标注的一致性较高,加权平均F1分数达到0.88,而事实核查标注者间的一致性为中等水平,反映了真实场景中核查的复杂性。此外,证据来源多来自疾病控制与预防中心等权威机构,确保了证据质量,为自动化事实核查系统提供了宝贵的现实世界证据资源。
使用方法
CoVERT数据集为生物医学领域的事实核查研究提供了多方面的应用路径。研究者可利用该数据集训练和评估自动化事实核查系统,特别是基于证据的方法。数据集中的命名实体和关系标注可用于构建知识图谱或链接到医学本体,支持结构化证据检索。在实验层面,可借鉴论文中的流程,将推文与语言模型生成的证据或众包提供的真实证据配对,输入文本蕴含模型进行裁决预测,以探究外部证据对系统性能的影响。此外,数据集的证据文本和URL可用于开发证据检索模块,提升系统在真实场景中的实用性。对于方法学创新,数据集的众包标注策略为大规模事实核查数据收集提供了参考,而中等一致的标注结果也可用于研究标注不确定性处理。需要注意的是,由于生物医学知识持续更新,使用时应考虑数据的时间局限性,并结合最新信息进行验证。
背景与挑战
背景概述
在COVID-19大流行期间,社交媒体上涌现了大量关于这一新兴疾病的生物医学信息,其中部分虚假信息可能对公众健康构成严重威胁。为此,斯图加特大学的Isabelle Mohr、Amelie Wührl与Roman Klinger于2022年共同创建了CoVERT数据集,旨在填补生物医学领域COVID-19相关推文事实核查资源的空白。该数据集聚焦于推特平台上的生物医学主张,通过标注医学命名实体、因果关系及事实核查证据,为自动化事实核查系统提供了关键支持,推动了健康信息验证与自然语言处理交叉领域的研究进展。
当前挑战
CoVERT数据集致力于解决生物医学领域COVID-19信息的事实核查问题,其核心挑战在于社交媒体文本的非正式性与专业医学知识融合的复杂性。具体而言,数据构建面临双重困难:一是从海量推文中精准筛选具有生物医学主张的样本,需克服噪声干扰与领域边界模糊的难题;二是通过众包方式进行事实核查标注时,如何确保非专业标注者在检索证据、评估信息可信度时保持较高一致性与准确性,同时处理‘信息不足’类别缺乏直接证据的固有矛盾。
常用场景
经典使用场景
在生物医学信息学与自然语言处理交叉领域,CoVERT数据集为自动化事实核查研究提供了关键资源。该数据集聚焦于COVID-19疫情期间社交媒体上流传的生物医学主张,通过众包方式对推文进行事实核查标注,并附有实体、关系及证据文本的详细注释。其经典使用场景在于训练和评估基于证据的自动化事实核查模型,特别是在处理非结构化、口语化的社交媒体文本时,能够帮助模型学习如何结合外部医学知识源进行真伪判断。
解决学术问题
CoVERT数据集主要解决了生物医学领域社交媒体信息可信度评估的学术难题。传统事实核查资源多集中于新闻文本或缺乏细粒度医学实体标注,而该数据集填补了针对推特平台COVID-19相关生物医学主张进行精细化事实核查的数据空白。它使得研究者能够探索如何将医学命名实体识别、关系抽取与证据检索相结合,从而开发出更精准的领域特异性事实核查系统,对遏制健康 misinformation 的传播具有重要学术意义。
衍生相关工作
CoVERT数据集催生了一系列围绕生物医学社交媒体事实核查的衍生研究。例如,有工作基于其证据检索机制,开发了更精细化的句子级证据提取模型以提升核查精度;另有研究将其实体关系标注与医学知识图谱(如UMLS)链接,探索结构化知识在事实核查中的融合应用。这些工作扩展了证据检索、可解释性事实核查以及领域适应性语言模型微调等方向,推动了生物医学NLP与事实核查技术的交叉发展。
以上内容由遇见数据集搜集并总结生成



