CODA-19
收藏arXiv2020-09-18 更新2024-06-21 收录
下载链接:
http://CODA-19.org
下载链接
链接失效反馈官方服务:
资源简介:
CODA-19是由宾夕法尼亚州立大学创建的一个包含10,966篇英文摘要的人工标注数据集,用于标注COVID-19开放研究数据集中的背景、目的、方法、发现/贡献和其他部分。该数据集由248名亚马逊Mechanical Turk的众包工作者在10天内完成,其标注质量与专家相当。每个摘要由九名不同的工作者标注,最终标签通过多数投票确定。CODA-19的标签在与生物医学专家标签比较时准确率达到82.2%,表明非专家众包可以大规模快速参与COVID-19的研究。该数据集有助于科学家访问和整合快速增长的冠状病毒文献,并作为AI/NLP研究的基石,解决获取专家标注速度慢的问题。
CODA-19 is a manually annotated dataset containing 10,966 English abstracts developed by The Pennsylvania State University. It is intended to annotate standard sections including Background, Objective, Methodology, Finding/Contribution, and Miscellaneous in the COVID-19 Open Research Dataset. This dataset was completed by 248 crowdworkers recruited from Amazon Mechanical Turk over a 10-day period, with its annotation quality comparable to that of domain experts. Each abstract was annotated by nine unique workers, and the final consensus label is determined via majority voting. When compared with annotations provided by biomedical experts, the labels from CODA-19 achieve an accuracy of 82.2%, demonstrating that non-expert crowdsourcing can rapidly engage in COVID-19 research at scale. This dataset enables scientists to access and integrate the rapidly growing body of coronavirus literature, and serves as a foundational resource for AI/NLP research to address the long-standing challenge of slow expert annotation acquisition.
提供机构:
宾夕法尼亚州立大学
创建时间:
2020-05-06
搜集汇总
数据集介绍

构建方式
在COVID-19研究文献急剧增长的背景下,CODA-19数据集通过创新的众包标注策略构建而成。该数据集从CORD-19中随机选取了10,966篇英文摘要,利用亚马逊Mechanical Turk平台招募了248名非专家标注者,在十天内完成了标注任务。每篇摘要由九名不同的标注者独立标注,标注单元为经过分句和子句分割后的文本片段,共计168,286个片段。最终标签通过多数投票机制聚合生成,并辅以动态的质量监控机制,对标注一致性较低的标注者进行筛选排除,从而在保证效率的同时维持了标注质量。
使用方法
CODA-19数据集主要服务于自然语言处理与信息检索领域的研究与应用。数据集已按80/10/10的比例划分为训练集、验证集和测试集,可直接用于训练和评估自动研究要素分类模型。论文中提供了包括SVM、随机森林、CNN、LSTM、BERT及SciBERT在内的多种基线模型性能,其中SciBERT表现最佳,为后续研究提供了可靠的基准。该数据集可用于开发文献智能检索系统、自动摘要生成工具,或支持COVID-19研究文献的知识图谱构建与内容分析,帮助研究者快速定位特定研究要素,应对信息过载的挑战。
背景与挑战
背景概述
CODA-19数据集诞生于2020年全球新冠疫情爆发期间,由宾夕法尼亚州立大学、加州大学旧金山分校及卡内基梅隆大学的研究团队联合创建。该数据集旨在应对COVID-19开放研究数据集(CORD-19)中文献数量激增带来的信息过载问题,核心研究聚焦于对科学文献摘要进行细粒度结构解析,标注其背景、目的、方法、发现/贡献及其他五个研究维度。通过招募248名非专业众包工作者在十天内完成对10,966篇摘要的标注,CODA-19以接近专家水平的标注质量(标注者间一致性科恩卡帕系数达0.741),为生物医学文献挖掘与自然语言处理研究提供了关键数据支撑,显著提升了大规模科学文献结构化分析的效率与可扩展性。
当前挑战
CODA-19致力于解决科学文献结构解析领域的核心挑战,即如何快速、准确地对海量学术摘要进行语义角色标注,以支持高效的信息检索与知识整合。在构建过程中,研究团队面临双重困难:其一,在领域问题层面,需设计普适性标注体系以涵盖多样化的研究表述,并处理背景与目的等语义相近类别间的模糊边界;其二,在工程实施层面,需克服非专业众包工作者对生物医学术语的理解障碍,通过动态优化标注指南、设计渐进式任务界面及实施多轮质量监控机制,在保证标注一致性的同时实现大规模数据的高效采集。
常用场景
经典使用场景
在生物医学信息学领域,CODA-19数据集为研究论文结构解析提供了关键资源。该数据集通过对CORD-19中超过一万篇摘要进行人工标注,将每个句子片段归类为背景、目的、方法、发现/贡献或其他五个研究维度。这种细粒度的标注方式使得研究者能够深入分析科学文献的论证结构,为自动化的文献理解系统奠定基础。在自然语言处理研究中,CODA-19常被用作训练和评估序列标注模型的基准数据集,特别是在科学文献结构分析任务中展现其核心价值。
解决学术问题
CODA-19有效解决了大规模科学文献快速标注的学术难题。传统上,论文结构标注依赖领域专家,导致数据集规模受限且构建周期漫长。该数据集通过众包模式,在十天内完成对万余篇摘要的标注,标注质量与专家水平相当(科恩卡帕系数0.741)。这突破了专家标注的瓶颈,为快速构建大规模标注数据集提供了可行方案。同时,数据集解决了COVID-19研究爆发期文献过载的问题,通过结构化表示帮助研究者高效提取关键科学信息。
实际应用
在实际应用层面,CODA-19支撑了多个COVID-19研究辅助系统的开发。基于该数据集训练的自动标注模型可集成到文献检索平台,实现按研究维度筛选论文的功能。例如,研究者可快速定位特定方法的文献或筛选出具有创新发现的论文。数据集还被用于构建COVIDSeer等可视化检索系统,通过结构化展示论文内容降低信息获取门槛。在公共卫生应急响应中,这种高效文献处理能力加速了科学证据的整合与应用。
数据集最近研究
最新研究方向
在生物医学信息学领域,CODA-19数据集作为首个大规模非专家众包标注的COVID-19研究摘要数据集,其前沿研究聚焦于利用众包标注范式加速科学文献的结构化解析。该数据集通过标注背景、目的、方法、发现/贡献等研究要素,为自然语言处理模型提供了高质量的监督数据,推动了SciBERT等预训练模型在生物医学文本分类任务中的性能优化。相关热点事件包括COVID-19开放研究数据集(CORD-19)的全球协作倡议,促使该数据集成为疫情文献快速分析的关键基础设施。其意义在于验证了非专家众包在复杂学术文本标注中的可行性,为突发公共卫生事件下的科研信息整合提供了高效、可扩展的解决方案,同时为自动摘要生成、知识图谱构建等AI应用奠定了数据基础。
相关研究论文
- 1CODA-19: Using a Non-Expert Crowd to Annotate Research Aspects on 10,000+ Abstracts in the COVID-19 Open Research Dataset宾夕法尼亚州立大学 · 2020年
以上内容由遇见数据集搜集并总结生成



