five

CHQ-Summ

收藏
arXiv2022-06-16 更新2024-06-21 收录
下载链接:
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l&did=11
下载链接
链接失效反馈
官方服务:
资源简介:
CHQ-Summ数据集是由国家生物医学通信研究所国家医学图书馆的研究人员创建,专注于消费者健康问题摘要。该数据集包含1507条来自Yahoo社区问答论坛的消费者健康问题及其由领域专家标注的摘要。数据集的创建过程涉及从大量问题中筛选出与健康相关的问题,并通过多阶段过滤确保数据质量。CHQ-Summ数据集的应用领域主要在于开发自动化的健康问题摘要系统,旨在简化用户获取健康信息的流程,提高信息检索的效率。

The CHQ-Summ dataset was created by researchers from the National Library of Medicine, National Institute of Biomedical Communications, and focuses on consumer health question summarization. This dataset includes 1,507 consumer health questions sourced from the Yahoo Community Question & Answer Forum, alongside their summaries annotated by domain experts. The dataset construction process involves screening health-related questions from a large pool of initial queries, and adopting multi-stage filtering to ensure data quality. The primary application of the CHQ-Summ dataset lies in developing automated health question summarization systems, which aim to simplify users' access to health information and enhance the efficiency of information retrieval.
提供机构:
国家生物医学通信研究所国家医学图书馆
创建时间:
2022-06-14
搜集汇总
数据集介绍
构建方式
在消费者健康信息检索领域,用户常以冗长描述表达医疗需求,为自然语言理解带来挑战。CHQ-Summ数据集的构建始于雅虎问答社区的海量语料,通过多阶段启发式过滤策略精炼而成。首先利用生物医学实体识别模型筛选含医疗实体的问答线程,随后剔除内容过短无需概括的条目,最终保留1507条高质量问题。由六位医学信息学与临床医学专家独立标注,为每条问题生成抽象式摘要,并额外标注问题焦点与问题类型,确保数据的专业性与多样性。
特点
该数据集显著特点在于其领域专业性与结构丰富性。作为消费者健康问题摘要领域规模较大的专家标注资源,它涵盖疾病症状、药物治疗、医学检测等多类医疗主题。每个样本不仅包含原始问题与人工摘要,还标注了问题焦点实体与33种问题类型,为模型提供深层语义指引。数据源自真实社区问答,语言风格自然多样,平均问题长度约177词,摘要则凝练至13词左右,有效体现了从冗长描述到核心信息的提炼过程。
使用方法
CHQ-Summ适用于训练与评估健康问题自动摘要模型。研究者可按既定划分使用训练、验证与测试集,借鉴论文中对ProphetNet、BART等预训练模型的微调方法。使用时应注重问题焦点与类型的辅助信息,以提升摘要的事实准确性。评估需结合ROUGE指标与BERTScore等语义度量,并辅以人工评判,因自动指标可能无法完全反映临床相关性。数据可用于开发医疗问答系统的前置摘要模块,助力提升健康信息检索效率。
背景与挑战
背景概述
在自然语言处理领域,消费者健康问题摘要生成是医疗信息检索与问答系统的关键环节。随着互联网健康咨询的激增,用户倾向于使用冗长且包含大量外围信息的语言描述医疗状况,这为自动理解与分析带来了显著挑战。为应对此问题,伊利诺伊大学芝加哥分校与美国国立卫生研究院的研究团队于2022年共同创建了CHQ-Summ数据集。该数据集源自雅虎社区问答论坛,包含1507条由领域专家标注的问题-摘要对,并额外标注了问题焦点与问题类型。其核心研究目标在于通过摘要技术提炼用户健康问题的关键信息,从而提升医疗问答系统的精准性与效率。该资源的推出填补了专业领域标注数据稀缺的空白,为社交媒体健康信息理解与自动化处理提供了重要基准。
当前挑战
消费者健康问题摘要任务面临双重挑战。在领域问题层面,用户提问常包含冗余描述、情感表达与非结构化信息,要求模型在保留医学实体与核心意图的同时,剔除无关细节,这对摘要的准确性与简洁性构成严峻考验。在数据集构建过程中,研究团队需从海量社区问答中筛选高质量医学问题,并设计多阶段启发式过滤策略以去除噪声。此外,标注工作依赖医学信息学专家,需确保摘要的抽象性、问题焦点识别的准确性以及问题类型分类的一致性,而摘要生成任务中语义一致但表述多样的特性,使得标注者间一致性评估面临挑战,传统基于重叠的自动评估指标在此领域可能无法充分反映生成质量。
常用场景
经典使用场景
在消费者健康信息处理领域,CHQ-Summ数据集为自动问答系统的前端优化提供了关键支撑。该数据集的核心应用场景在于训练和评估抽象式问题摘要生成模型,旨在将用户冗长、包含大量外围细节的健康咨询问题,提炼为简洁、聚焦关键医疗实体的核心查询。通过利用该数据集,研究者能够开发出能够理解并重构消费者健康问题本质的算法,从而显著提升后续信息检索与答案匹配的精准度。
解决学术问题
CHQ-Summ数据集有效应对了自然语言处理在医疗健康领域的一个核心挑战:如何从非结构化、描述性强的用户生成内容中提取语义核心。它为解决消费者健康问题自动摘要这一特定任务提供了稀缺的专家标注数据,填补了该领域高质量训练数据不足的空白。该数据集不仅支持摘要生成,其附带的问题焦点和问题类型标注,为探索结合语义约束的生成模型、提升摘要的事实准确性等前沿研究方向奠定了基础,推动了领域自适应与可控文本生成技术的发展。
衍生相关工作
CHQ-Summ的发布催生了一系列围绕消费者健康文本处理的创新研究。基于此数据集,学者们探索了结合问题焦点与类型等语义信息的Transformer模型优化,例如Question-Aware Transformer模型。此外,该数据集也被用于研究基于强化学习的摘要方法,通过设计问题感知的语义奖励机制来提升生成质量。这些工作共同推进了医疗健康自然语言处理向更精准、更可控的方向演进,并与MEQSUM、MEDIQA-AnS等数据集形成了互补,构建了更完整的消费者健康文本处理研究生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作