deepset/covid_qa_deepset
收藏Hugging Face2024-08-08 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/deepset/covid_qa_deepset
下载链接
链接失效反馈官方服务:
资源简介:
COVID-QA是一个问答数据集,包含2019个问题/答案对,由15位生物医学专家在147篇与COVID-19相关的科学文章上进行标注。每个实例包括一个问题、一个上下文(来自CORD19数据集的文档段落)和一个答案。数据以SQuAD风格进行标注,目标是帮助构建问答模型,服务于临床和科学研究人员、公共卫生当局以及一线工作者。
COVID-QA是一个问答数据集,包含2019个问题/答案对,由15位生物医学专家在147篇与COVID-19相关的科学文章上进行标注。每个实例包括一个问题、一个上下文(来自CORD19数据集的文档段落)和一个答案。数据以SQuAD风格进行标注,目标是帮助构建问答模型,服务于临床和科学研究人员、公共卫生当局以及一线工作者。
提供机构:
deepset
原始信息汇总
数据集概述
数据集名称
- 名称: COVID-QA
数据集描述
- 描述: COVID-QA是一个问答数据集,包含2,019个问题/答案对,由志愿的生物医学专家在COVID-19相关的科学文章上进行标注。
- 语言: 英语
- 许可: Apache-2.0
数据集结构
- 数据实例: 每个实例代表一个问题、一个上下文(来自CORD19数据集的文档段落)和一个答案。
- 数据字段:
- document_id: 整数类型
- context: 字符串类型
- question: 字符串类型
- is_impossible: 布尔类型
- id: 整数类型
- answers: 序列类型,包含文本和答案开始位置
- 数据分割:
- 训练集: 2019个实例,总字节数为65151262
数据集创建
- 来源数据: 来自CORD-19数据集的147篇科学文章
- 标注过程: 由15名志愿的生物医学专家进行标注,使用deepset开发的web-based标注工具
使用数据注意事项
- 社会影响: 旨在帮助构建服务于临床和科学研究人员、公共卫生当局和前线工作者的问答模型
附加信息
-
许可证: Apache License 2.0
-
引用信息:
@inproceedings{moller2020covid, title={COVID-QA: A Question Answering Dataset for COVID-19}, author={M{"o}ller, Timo and Reina, Anthony and Jayakumar, Raghavan and Pietsch, Malte}, booktitle={Proceedings of the 1st Workshop on NLP for COVID-19 at ACL 2020}, year={2020} }



