bigbio/biomrc

Name: bigbio/biomrc
Creator: bigbio
Published: 2022-12-22 15:43:44
License: 暂无描述

Hugging Face2022-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/biomrc

下载链接

链接失效反馈

官方服务：

资源简介：

我们介绍了BIOMRC，一个大规模的生物医学机器阅读理解数据集，采用填空式任务。与Pappas等人（2018）的BIOREAD数据集相比，BIOMRC在减少噪声方面做了更多努力。实验表明，简单的启发式方法在新数据集上表现不佳，而之前在BIOREAD上测试过的两个神经MRC模型在BIOMRC上表现更好，这表明新数据集确实噪声较少，或者至少其任务更可行。非专家人类在新数据集上的表现也高于BIOREAD，而生物医学专家的表现更好。我们还引入了一个新的基于BERT的MRC模型，其最佳版本在所有测试方法中表现优异，在某些实验中达到或超过了生物医学专家的准确性。我们提供了新数据集的三个不同大小版本，并发布了代码，还提供了一个排行榜。

We introduce BIOMRC, a large-scale biomedical machine reading comprehension dataset formulated as a cloze-style task. Compared to the BIOREAD dataset proposed by Pappas et al. (2018), BIOMRC has implemented more rigorous noise reduction measures. Experiments show that simple heuristic approaches perform poorly on this new dataset, while two neural MRC models previously evaluated on BIOREAD achieve superior performance on BIOMRC, indicating that the new dataset indeed contains less noise, or at least its task is more practically feasible. The performance of non-expert humans on the new dataset is also higher than that on BIOREAD, and biomedical experts attain even better results. We also propose a novel BERT-based MRC model; its best variant outperforms all tested methods, and in certain experiments matches or exceeds the accuracy of biomedical experts. We release three versions of the BIOMRC dataset with varying sizes, alongside the corresponding code, and also host an official leaderboard for the dataset.

提供机构：

bigbio

原始信息汇总

数据集概述 - BIOMRC

基本信息

语言: 英语
许可证: 未知
多语言性: 单语
PubMed可用性: 真
公开性: 真
任务类型: 问答（QA）

数据集描述

BIOMRC是一个大规模的填空式生物医学阅读理解数据集。与之前的BIOREAD数据集相比，BIOMRC在减少噪音方面做了特别处理。实验表明，简单的启发式方法在该数据集上表现不佳，而两种在BIOREAD上测试过的神经阅读理解模型在BIOMRC上表现更好，表明新数据集的噪音确实较低或其任务更可行。非专家的人类表现也高于BIOREAD，而生物医学专家的表现更佳。此外，还引入了一种新的基于BERT的阅读理解模型，其最佳版本在某些实验中达到了或超过了生物医学专家的准确性。该数据集提供三种不同大小，并发布了相关代码和排行榜。

引用信息

@inproceedings{pappas-etal-2020-biomrc, title = "{B}io{MRC}: A Dataset for Biomedical Machine Reading Comprehension", author = "Pappas, Dimitris and Stavropoulos, Petros and Androutsopoulos, Ion and McDonald, Ryan", booktitle = "Proceedings of the 19th SIGBioMed Workshop on Biomedical Language Processing", month = jul, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.bionlp-1.15", pages = "140--149", }

搜集汇总

数据集介绍

构建方式

在生物医学机器阅读理解领域，BIOMRC数据集的构建体现了对数据质量的严谨追求。该数据集通过精心设计的流程，从大规模生物医学文献中提取信息，并采用完形填空式任务形式，旨在降低先前BIOREAD数据集中的噪声干扰。构建过程中，研究者注重确保问题的科学性和答案的准确性，从而为模型训练提供了更为可靠的基础。

使用方法

使用BIOMRC数据集时，研究者可将其应用于生物医学机器阅读理解任务的训练与评估。数据集提供三种不同规模版本，便于根据需求灵活选择。通过加载数据集文件，用户可以构建问答模型，并参考提供的代码库进行实验，同时利用公开的排行榜比较模型性能，推动该领域的技术进步。

背景与挑战

背景概述

在生物医学信息学领域，机器阅读理解（MRC）技术对于从海量文献中高效提取知识至关重要。BIOMRC数据集由Dimitris Pappas、Petros Stavropoulos等研究人员于2020年创建，旨在构建一个大规模、低噪声的完形填空式生物医学MRC基准。该数据集针对先前BIOREAD数据集中存在的噪声问题进行了优化，通过精心设计的数据筛选流程，提升了任务的可行性与模型评估的可靠性。其发布不仅推动了生物医学自然语言处理技术的发展，还为后续研究提供了高质量的实验平台，显著促进了该领域在知识抽取与问答系统方面的进步。

当前挑战

BIOMRC数据集致力于解决生物医学机器阅读理解的核心挑战，即从复杂专业的生物医学文本中准确抽取答案，这对模型的语义理解与领域知识整合能力提出了极高要求。在构建过程中，研究团队面临的主要困难在于降低数据噪声，例如避免启发式方法轻易破解问题，并确保任务反映真实的生物医学知识推理。此外，创建不同规模的数据集版本以适应多样化的实验需求，同时保持数据质量与任务难度之间的平衡，亦是构建过程中的关键挑战。

常用场景

经典使用场景

在生物医学自然语言处理领域，机器阅读理解任务常面临专业术语密集与语义复杂性高的挑战。BIOMRC数据集以其大规模填空式设计，为研究者提供了一个标准化的评估平台，广泛应用于训练和测试生物医学文本理解模型。该数据集通过精心构建的上下文与问题对，促使模型深入挖掘文献中的隐含信息，从而推动生物医学信息抽取技术的进步。

解决学术问题

BIOMRC的推出，有效缓解了先前生物医学阅读理解数据集中噪声过高的问题，提升了任务的可解性。它解决了模型在专业领域泛化能力不足的学术痛点，通过提供清晰、高质量的标注数据，支持了神经网络模型在生物医学语境下的性能优化。这一进展不仅加速了领域自适应方法的研究，也为评估模型在真实世界生物医学知识理解中的可靠性奠定了坚实基础。

实际应用

在实际应用中，BIOMRC数据集被整合到临床决策支持系统和生物医学文献检索工具中，辅助医疗专业人员快速提取关键信息。例如，在药物研发过程中，模型利用该数据集进行文献综述自动化，从海量科研论文中精准定位实验数据或结论，显著提升研究效率。此外，它还在智能医疗问答系统中发挥核心作用，帮助患者或医生获取可靠的医学知识解答。

数据集最近研究