bigbio/biomrc
收藏数据集概述 - BIOMRC
基本信息
- 语言: 英语
- 许可证: 未知
- 多语言性: 单语
- PubMed可用性: 真
- 公开性: 真
- 任务类型: 问答(QA)
数据集描述
BIOMRC是一个大规模的填空式生物医学阅读理解数据集。与之前的BIOREAD数据集相比,BIOMRC在减少噪音方面做了特别处理。实验表明,简单的启发式方法在该数据集上表现不佳,而两种在BIOREAD上测试过的神经阅读理解模型在BIOMRC上表现更好,表明新数据集的噪音确实较低或其任务更可行。非专家的人类表现也高于BIOREAD,而生物医学专家的表现更佳。此外,还引入了一种新的基于BERT的阅读理解模型,其最佳版本在某些实验中达到了或超过了生物医学专家的准确性。该数据集提供三种不同大小,并发布了相关代码和排行榜。
引用信息
@inproceedings{pappas-etal-2020-biomrc, title = "{B}io{MRC}: A Dataset for Biomedical Machine Reading Comprehension", author = "Pappas, Dimitris and Stavropoulos, Petros and Androutsopoulos, Ion and McDonald, Ryan", booktitle = "Proceedings of the 19th SIGBioMed Workshop on Biomedical Language Processing", month = jul, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.bionlp-1.15", pages = "140--149", }




