albertvillanova/meqsum

Name: albertvillanova/meqsum
Creator: albertvillanova
Published: 2023-05-29 08:45:44
License: 暂无描述

Hugging Face2023-05-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/albertvillanova/meqsum

下载链接

链接失效反馈

官方服务：

资源简介：

MeQSum语料库是一个用于医疗问题摘要的数据集，包含1000个消费者健康问题的摘要。每个数据实例包括消费者健康问题（CHQ）、问题摘要（Summary）和文件名（File）。数据集仅包含一个训练集，且所有数据均为英文。

提供机构：

albertvillanova

原始信息汇总

数据集概述

数据集名称

名称：MeQSum

数据集基本信息

语言：英语 (en)
许可证：未知
多语言性：单语
大小类别：小于1K
源数据集：原始
任务类别：摘要生成
任务ID：无
标签：医学

数据集描述

摘要：MeQSum是一个用于医学问题摘要的数据集，包含1,000个消费者健康问题的摘要。
支持的任务和排行榜：信息待补充
结构：
- 数据实例：每个实例包含消费者健康问题（CHQ）、问题摘要（Summary）和文件名（File）。
- 数据字段：
  - CHQ (str): 消费者健康问题。
  - Summary (str): 问题摘要，即浓缩的问题，表达寻找原始问题正确答案所需的最少信息。
  - File (str): 文件名。
- 数据分割：单个train分割，包含1,000个示例。

数据集创建

来源数据：信息待补充
注释：信息待补充
个人和敏感信息：信息待补充

使用数据的考虑

社会影响：信息待补充
偏见讨论：信息待补充
其他已知限制：信息待补充

附加信息

数据集管理员：信息待补充
许可证信息：信息待补充
引用信息：

@inproceedings{ben-abacha-demner-fushman-2019-summarization, title = "On the Summarization of Consumer Health Questions", author = "Ben Abacha, Asma and Demner-Fushman, Dina", booktitle = "Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2019", address = "Florence, Italy", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/P19-1215", doi = "10.18653/v1/P19-1215", pages = "2228--2234", abstract = "Question understanding is one of the main challenges in question answering. In real world applications, users often submit natural language questions that are longer than needed and include peripheral information that increases the complexity of the question, leading to substantially more false positives in answer retrieval. In this paper, we study neural abstractive models for medical question summarization. We introduce the MeQSum corpus of 1,000 summarized consumer health questions. We explore data augmentation methods and evaluate state-of-the-art neural abstractive models on this new task. In particular, we show that semantic augmentation from question datasets improves the overall performance, and that pointer-generator networks outperform sequence-to-sequence attentional models on this task, with a ROUGE-1 score of 44.16{%}. We also present a detailed error analysis and discuss directions for improvement that are specific to question summarization.", }
贡献者：感谢@albertvillanova添加此数据集。

搜集汇总

数据集介绍

构建方式

在医疗信息检索领域，精准理解用户提问是提升问答系统效能的关键。MeQSum数据集的构建源于对消费者健康问题的深入分析，通过从真实医疗问答平台中提取原始长问题，并采用人工标注方式生成简洁的摘要。这一过程旨在捕捉问题的核心意图，剔除冗余信息，从而形成包含一千对问题与摘要的高质量语料库，为医疗文本摘要任务提供了坚实基础。

特点

该数据集专注于医疗领域的自然语言处理，其核心特点在于每个样本均由原始消费者健康问题及其精炼摘要组成。摘要部分高度凝练，仅保留回答原问题所需的最小信息量，这有助于模型学习如何从复杂表述中提取关键医疗意图。数据集规模适中，涵盖多样化的健康主题，为研究医疗文本的抽象摘要提供了标准化评估基准。

使用方法

使用MeQSum数据集时，研究者可将其应用于医疗问题摘要的模型训练与评估。典型流程包括加载数据、预处理文本，并利用序列到序列或指针生成器等神经网络架构进行建模。通过比较生成摘要与人工标注摘要的相似度指标，如ROUGE分数，可以量化模型性能。该数据集支持端到端的训练，有助于推动医疗问答系统中问题理解模块的优化与创新。

背景与挑战

背景概述

在医疗信息检索领域，消费者健康问题往往冗长且包含冗余信息，这增加了自动问答系统的理解难度。为应对这一挑战，美国国立卫生研究院的研究人员Asma Ben Abacha与Dina Demner-Fushman于2019年共同创建了MeQSum数据集，专注于医疗问题摘要生成。该数据集收录了1000条经过人工提炼的消费者健康问题及其对应摘要，旨在通过抽象式摘要技术，将复杂的原始问题压缩为简洁的核心查询，从而提升医疗问答系统的准确性与效率。这一创新工作为自然语言处理在医疗领域的应用提供了重要资源，推动了健康信息检索技术的发展。

当前挑战

MeQSum数据集致力于解决医疗问题摘要生成的核心挑战，即如何从冗长且信息冗余的消费者健康问题中，自动提取出简洁且语义完整的核心查询。这一任务面临语言表达的多样性与医学术语的专业性双重考验，要求模型在保留关键医疗意图的同时，消除无关细节。在数据构建过程中，挑战主要源于摘要标注的高标准要求，需要领域专家对原始问题进行精准的语义压缩，确保摘要既忠实于原意，又符合自然语言习惯。此外，数据集规模相对有限，对模型的泛化能力提出了更高要求，如何在小样本条件下实现稳健的摘要性能，成为后续研究的关键难点。

常用场景

经典使用场景

在医疗信息处理领域，MeQSum数据集为消费者健康问题的自动摘要提供了关键资源。该数据集包含1000条经过人工总结的消费者健康问题，其经典应用场景在于训练和评估神经抽象式模型，以将冗长、复杂的用户医疗查询转化为简洁、核心的表述。通过这一过程，模型能够学习识别并提取问题中的关键信息，从而提升医疗问答系统的理解效率，为后续的答案检索奠定基础。

衍生相关工作

围绕MeQSum数据集，已衍生出一系列经典研究工作。其开创性论文《On the Summarization of Consumer Health Questions》系统阐述了该任务的挑战与模型评估方法。后续研究在此基础上，深入探索了数据增强策略、语义信息融合以及针对医疗文本的领域自适应技术。这些工作不仅优化了指针生成器网络等模型在该数据集上的性能，也为更广泛的领域特定摘要任务，如法律或技术问答的总结，提供了可借鉴的范式与灵感。

数据集最近研究