bigbio/medhop

Name: bigbio/medhop
Creator: bigbio
Published: 2022-12-22 15:45:26
License: 暂无描述

Hugging Face2022-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/medhop

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集基于PubMed的研究论文摘要，查询内容涉及药物之间的相互作用。正确答案需要通过结合药物和蛋白质反应链的信息来推断。数据集的格式与WikiHop相同，旨在通过多步推理来回答跨文档的阅读理解问题。

This dataset is based on the abstracts of research papers indexed in PubMed, with queries focused on drug-drug interactions. The correct answers must be inferred by integrating information about drug-protein reaction chains. The format of this dataset is identical to that of WikiHop, and it is designed to answer cross-document reading comprehension questions through multi-step reasoning.

提供机构：

bigbio

原始信息汇总

数据集概述

基本信息

名称: MedHop
语言: 英语
许可证: CC BY SA 3.0
多语言性: 单语种
任务: 问答（QA）

详细描述

主页: http://qangaroo.cs.ucl.ac.uk/
是否公开: 是
是否包含PubMed数据: 是

该数据集基于PubMed的研究论文摘要，主要涉及药物对之间的交互作用。正确答案需要通过结合药物和蛋白质的一系列反应链信息来推断。

引用信息

@article{welbl-etal-2018-constructing, title = "Constructing Datasets for Multi-hop Reading Comprehension Across Documents", author = "Welbl, Johannes and Stenetorp, Pontus and Riedel, Sebastian", journal = "Transactions of the Association for Computational Linguistics", volume = 6, year = 2018, address = "Cambridge, MA", publisher = "MIT Press", url = "https://aclanthology.org/Q18-1021", doi = "10.1162/tacl_a_00021", pages = "287--302", abstract = { Most Reading Comprehension methods limit themselves to queries which can be answered using a single sentence, paragraph, or document. Enabling models to combine disjoint pieces of textual evidence would extend the scope of machine comprehension methods, but currently no resources exist to train and test this capability. We propose a novel task to encourage the development of models for text understanding across multiple documents and to investigate the limits of existing methods. In our task, a model learns to seek and combine evidence -- effectively performing multihop, alias multi-step, inference. We devise a methodology to produce datasets for this task, given a collection of query-answer pairs and thematically linked documents. Two datasets from different domains are induced, and we identify potential pitfalls and devise circumvention strategies. We evaluate two previously proposed competitive models and find that one can integrate information across documents. However, both models struggle to select relevant information; and providing documents guaranteed to be relevant greatly improves their performance. While the models outperform several strong baselines, their best accuracy reaches 54.5 % on an annotated test set, compared to human performance at 85.0 %, leaving ample room for improvement. }

搜集汇总

数据集介绍

构建方式

在生物医学信息抽取领域，多跳推理能力对于理解复杂药物相互作用至关重要。MedHop数据集的构建借鉴了WikiHop的格式，其核心方法是从PubMed研究论文摘要中提取信息，围绕药物对之间的相互作用设计查询。该过程通过精心设计的流程，将药物与蛋白质反应链中的信息进行整合，要求模型跨越多个文档片段进行推理，从而形成需要多步逻辑推断的问答对。这种构建策略确保了数据集的挑战性与现实生物医学问题的相关性。

特点

MedHop数据集显著特点在于其专注于生物医学领域的多跳阅读理解任务。所有查询均围绕药物相互作用设计，答案需通过串联不同文档中的证据链推导得出，而非依赖单一文本片段。数据集语言为英语，基于PubMed摘要保证了内容的科学权威性，其任务形式专门评估模型整合分散文本信息并进行多步推理的能力，为衡量机器在复杂专业领域的理解水平提供了精准的基准。

使用方法

该数据集主要用于训练和评估在多文档背景下进行多跳推理的问答模型。研究人员可将其作为基准测试，以开发能够追踪生物医学实体间复杂关系的新算法。典型使用流程包括加载数据集、预处理文本、设计模型架构以进行证据检索与信息融合，并最终评估模型在未见数据上的答案预测准确性。通过此项任务，可有效推动机器阅读理解技术向更深层次的逻辑推理方向发展。

背景与挑战

背景概述

在自然语言处理领域，多跳阅读理解任务旨在推动模型跨越多个文档进行推理，以回答复杂查询。MedHop数据集由Johannes Welbl、Pontus Stenetorp和Sebastian Riedel等研究人员于2018年构建，其灵感来源于WikiHop格式，专注于生物医学领域。该数据集基于PubMed研究论文摘要，核心研究问题是药物对之间相互作用的推断，要求模型通过整合药物与蛋白质反应链中的信息来得出正确答案。MedHop的创建填补了多文档、多步推理资源在生物医学领域的空白，显著促进了机器理解模型在跨文档信息融合方面的发展，对计算语言学和生物信息学产生了深远影响。

当前挑战

MedHop数据集面临的挑战主要体现在两个方面：在领域问题层面，多跳阅读理解任务要求模型不仅能够检索相关信息，还需进行复杂的逻辑推理以连接分散的证据，这超越了传统单文档问答的范畴，对模型的推理能力和上下文整合提出了更高要求；在构建过程中，研究人员需从大量PubMed摘要中筛选与药物相互作用相关的查询-答案对，并确保文档间存在主题关联性，同时避免了数据偏差和噪声干扰，这些因素增加了数据集的构建难度和复杂性。

常用场景

经典使用场景

在生物医学信息抽取领域，MedHop数据集作为多跳阅读理解任务的基准，其经典使用场景聚焦于药物相互作用推理。研究者通过该数据集训练模型从多篇PubMed摘要中整合分散的证据链，以回答关于药物对之间复杂交互的查询。这种设置模拟了真实科研中需要跨文献综合信息的情境，推动了模型在长距离推理和证据聚合方面的发展。

衍生相关工作

该数据集衍生出诸多经典研究工作，例如基于图神经网络的证据路径建模方法，将药物、蛋白质实体构建为异构知识图谱进行推理。后续研究进一步扩展了多跳推理的边界，如引入注意力机制的证据筛选架构，以及结合预训练语言模型的端到端解决方案。这些工作共同深化了对生物医学文本中隐式逻辑关系的表示学习探索。

数据集最近研究