CHQ-Summ

Name: CHQ-Summ
Creator: 伊利诺伊大学芝加哥分校·计算机科学系; 美国国立卫生研究院·国家医学图书馆
Published: 2025-12-30 01:49:43
License: 暂无描述

arXiv2025-12-30 更新2025-12-31 收录

下载链接：

https://osf.io/x5rgm/files/9kexq

下载链接

链接失效反馈

官方服务：

资源简介：

CHQ-Summ是由伊利诺伊大学芝加哥分校与美国国立卫生研究院联合构建的消费者医疗问题摘要数据集，包含1507条经医学信息学专家标注的社区问答对。该数据集源自Yahoo Answers L6语料库，通过实体识别、启发式过滤等三重流程筛选医疗相关问题，平均原始问题长度177词，摘要压缩至13词，涵盖疾病、药物、检测等33类医疗主题。其创新性在于同时标注问题焦点、问题类型及MeSH术语，为医疗问答系统、检索增强生成和大语言模型微调提供基准资源，显著提升对社交媒体非结构化医疗文本的理解能力。

CHQ-Summ is a consumer health question summarization dataset jointly constructed by the University of Illinois Chicago and the U.S. National Institutes of Health, containing 1507 community question-answer pairs annotated by medical informatics experts. This dataset is derived from the Yahoo Answers L6 corpus, and medical-related questions are screened through a three-stage process including entity recognition and heuristic filtering. The average length of the original questions is 177 words, while the summaries are compressed to an average of 13 words, covering 33 medical topics such as diseases, medications and diagnostic tests. Its innovative aspect lies in the simultaneous annotation of question focus, question type and MeSH terms, providing benchmark resources for medical question answering systems, retrieval-augmented generation and large language model fine-tuning, which significantly enhances the understanding of unstructured medical texts from social media.

提供机构：

伊利诺伊大学芝加哥分校·计算机科学系; 美国国立卫生研究院·国家医学图书馆

创建时间：

2025-12-30

原始信息汇总

数据集概述

基本信息

数据集标题：CHQ-Summ
创建日期：2022年4月9日
修改日期：2022年6月13日

贡献者

Shweta Yadav
Center for Open Science

文件信息

文件名称：README.md
文件地址：https://osf.io/x5rgm/files/9kexq

搜集汇总

数据集介绍

构建方式

在医疗信息检索领域，消费者健康问题往往包含冗余描述，这给自然语言理解带来挑战。CHQ-Summ数据集通过系统化流程构建，首先从Yahoo! Answers L6语料库中筛选“医疗健康”类别的问题，随后利用基于斯坦福生物医学模型识别医学实体，并过滤内容过短的条目。最终，由六名医学信息学专家对1507个问题进行独立标注，生成抽象性摘要，同时标注问题焦点和问题类型，确保数据的高质量和领域专业性。

使用方法

CHQ-Summ数据集主要用于训练和评估消费者健康问题摘要生成模型。研究者可将其划分为训练、验证和测试集，用于微调如BART、PEGASUS等序列到序列模型，或用于评估大型语言模型在零样本、少样本设置下的性能。该数据集还支持检索增强生成流程的开发，通过摘要提升医疗问答系统的答案检索效果，为医疗自然语言处理领域的监督学习和模型评测提供基础资源。

背景与挑战

背景概述

在自然语言处理领域，医疗健康信息的自动化处理正面临日益增长的需求。CHQ-Summ数据集由伊利诺伊大学芝加哥分校与美国国立卫生研究院国家医学图书馆的研究团队于2025年创建，旨在解决消费者健康问题自动摘要的核心研究难题。该数据集从雅虎社区问答论坛中筛选出1507条经过领域专家标注的问题-摘要对，其创新性在于不仅提供摘要文本，还标注了问题焦点和问题类型等元信息。作为医疗自然语言处理领域的重要资源，CHQ-Summ填补了消费者健康问题摘要任务中专家标注数据稀缺的空白，为开发精准的医疗问答系统、检索增强生成管道以及大语言模型微调提供了关键支撑。

当前挑战

该数据集致力于解决消费者健康问题自动摘要的领域挑战，即如何从用户冗长、非结构化的健康咨询中提炼出核心医疗意图。构建过程中面临多重技术难题：首先需要从海量社区问答数据中精准识别医疗相关问题，研究团队采用斯坦福生物医学模型进行实体识别，并通过多级启发式过滤策略去除低质量样本；其次，摘要标注需要领域专家深度参与，团队设计包含问题焦点识别、问题类型分类的四步标注流程，并通过计算ROUGE-L和F1分数确保标注一致性；最后，数据集还需处理社区文本特有的语言变异问题，包括语法错误、非正式表达与医学术语混杂等现象，这对模型的语义理解能力提出了更高要求。

常用场景

经典使用场景

在消费者健康信息检索领域，用户常通过在线社区提出冗长且描述性的医疗问题，这给自动问答系统带来了理解挑战。CHQ-Summ数据集的核心应用场景在于为这些复杂的消费者健康问题提供抽象式摘要生成，将原始问题中冗余的细节去除，提炼出关键医疗意图。该数据集源自雅虎问答社区，涵盖了从语法不规范到专业医学术语的多变语言风格，为训练模型处理真实世界健康论坛中的多样化查询提供了宝贵资源。

解决学术问题

该数据集主要解决了医疗自然语言处理中消费者健康问题自动摘要的标注数据稀缺问题。传统摘要数据集多基于新闻或科学文献，而CHQ-Summ通过提供1507个由领域专家标注的问题-摘要对，填补了专业医疗摘要任务的空白。它促进了抽象式摘要模型在医疗领域的开发，帮助模型更准确地捕捉用户意图，减少因问题表述冗长导致的语义偏差，从而提升后续问答系统的性能与可靠性。

实际应用

CHQ-Summ的实际价值体现在增强医疗信息检索系统的效率上。通过将用户冗长的健康问题简化为精炼的查询，该系统能够更精准地匹配医学知识库中的答案，例如在临床决策支持或在线健康咨询平台中。实验表明，使用摘要后的问题进行检索，其答案相关性和排名显著优于原始问题，这为构建高效、可信的消费者健康问答管道提供了技术基础。

数据集最近研究