five

deepset/covid_qa_deepset

收藏
Hugging Face2024-08-08 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/deepset/covid_qa_deepset
下载链接
链接失效反馈
官方服务:
资源简介:
COVID-QA是一个问答数据集,包含2019个问题/答案对,由15位生物医学专家在147篇与COVID-19相关的科学文章上进行标注。每个实例包括一个问题、一个上下文(来自CORD19数据集的文档段落)和一个答案。数据以SQuAD风格进行标注,目标是帮助构建问答模型,服务于临床和科学研究人员、公共卫生当局以及一线工作者。

COVID-QA是一个问答数据集,包含2019个问题/答案对,由15位生物医学专家在147篇与COVID-19相关的科学文章上进行标注。每个实例包括一个问题、一个上下文(来自CORD19数据集的文档段落)和一个答案。数据以SQuAD风格进行标注,目标是帮助构建问答模型,服务于临床和科学研究人员、公共卫生当局以及一线工作者。
提供机构:
deepset
原始信息汇总

数据集概述

数据集名称

  • 名称: COVID-QA

数据集描述

  • 描述: COVID-QA是一个问答数据集,包含2,019个问题/答案对,由志愿的生物医学专家在COVID-19相关的科学文章上进行标注。
  • 语言: 英语
  • 许可: Apache-2.0

数据集结构

  • 数据实例: 每个实例代表一个问题、一个上下文(来自CORD19数据集的文档段落)和一个答案。
  • 数据字段:
    • document_id: 整数类型
    • context: 字符串类型
    • question: 字符串类型
    • is_impossible: 布尔类型
    • id: 整数类型
    • answers: 序列类型,包含文本和答案开始位置
  • 数据分割:
    • 训练集: 2019个实例,总字节数为65151262

数据集创建

  • 来源数据: 来自CORD-19数据集的147篇科学文章
  • 标注过程: 由15名志愿的生物医学专家进行标注,使用deepset开发的web-based标注工具

使用数据注意事项

  • 社会影响: 旨在帮助构建服务于临床和科学研究人员、公共卫生当局和前线工作者的问答模型

附加信息

  • 许可证: Apache License 2.0

  • 引用信息:

    @inproceedings{moller2020covid, title={COVID-QA: A Question Answering Dataset for COVID-19}, author={M{"o}ller, Timo and Reina, Anthony and Jayakumar, Raghavan and Pietsch, Malte}, booktitle={Proceedings of the 1st Workshop on NLP for COVID-19 at ACL 2020}, year={2020} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作