HealthChat-11K

Name: HealthChat-11K
Creator: UNC Chapel Hill, Duke University, University of Washington, Google
Published: 2025-06-27 01:52:18
License: 暂无描述

arXiv2025-06-27 更新2025-06-28 收录

下载链接：

https://github.com/yahskapar/HealthChat

下载链接

链接失效反馈

官方服务：

资源简介：

HealthChat-11K 是一个由 UNC Chapel Hill, Duke University, University of Washington 和 Google 研究人员合作创建的，包含 11,000 个真实对话，共计 25,000 条用户消息的数据集。该数据集旨在研究用户在与大型语言模型进行健康信息交流时的互动模式，并通过对 21 个不同健康专业的用户互动进行分类和注释，以帮助理解和改进聊天机器人在医疗保健支持方面的能力。数据集的创建过程包括从大规模对话数据集中筛选健康相关对话，并使用 LLM 进行对话级别的专业分类和消息级别的分类代码注释。该数据集可用于研究用户如何与聊天机器人进行多轮对话，以及如何提出开放式、常常模糊的问题。数据集的最终目标是促进对大型语言模型在医疗保健领域应用的更深入理解，并帮助改善其支持能力。

HealthChat-11K is a dataset co-created by researchers from UNC Chapel Hill, Duke University, the University of Washington, and Google, containing 11,000 real conversations with a total of 25,000 user messages. This dataset aims to study the interaction patterns of users when exchanging health information with large language models, and to help understand and improve the capabilities of chatbots in healthcare support by categorizing and annotating user interactions across 21 different health specialties. The dataset creation process involves screening health-related conversations from large-scale conversational datasets, and using LLMs to perform specialty classification at the conversation level and annotate classification codes at the message level. This dataset can be used to study how users conduct multi-turn conversations with chatbots and how they raise open-ended, often ambiguous questions. The ultimate goal of this dataset is to promote a deeper understanding of the applications of large language models in the healthcare field and help improve their support capabilities.

提供机构：

UNC Chapel Hill, Duke University, University of Washington, Google

创建时间：

2025-06-27

原始信息汇总

HealthChat数据集概述

数据集基本信息

项目名称：HealthChat
发布状态：持续更新中（截至2025年7月1日发布HealthChat-11K）
主要目标：改善人类与AI（如大型语言模型）之间的健康对话

数据集内容

数据规模：11,000条健康对话记录（HealthChat-11K）
数据特点：真实场景下的用户健康对话交互数据

数据获取

发布渠道：通过GitHub项目发布（https://github.com/yahskapar/HealthChat）

搜集汇总

数据集介绍

构建方式

HealthChat-11K数据集的构建过程涉及多步骤的筛选与标注流程。首先，研究人员从LMSYS-Chat-1M和WildChat-1M等大规模对话数据集中筛选出英语非毒性对话，随后通过Gemini 1.5 Pro模型进行健康相关对话的识别与过滤，最终保留11,000个真实世界对话（包含25,000条用户消息）。整个过程结合了自动化过滤与人工校验，确保数据质量与相关性。

特点

该数据集的核心特点在于其精细的临床驱动分类体系，涵盖21个医疗专科领域（如心理健康、心血管病学等）及32种消息级交互类型（包括症状描述、治疗咨询等）。每个对话均标注了专科类别，每条消息则标注了多重交互行为代码（如B5.2治疗建议请求）。这种双层标注结构为分析用户健康信息寻求行为提供了多维视角，特别凸显了信息请求类交互（占比40%）与情感表达行为的分布特征。

使用方法

研究人员可通过两种主要方式利用该数据集：其一，基于专科分类开展垂直领域研究（如精神健康咨询模式分析）；其二，通过消息级编码追踪交互模式（如治疗建议中的诱导性提问分析）。数据集支持对不完整语境、情感行为等临床关键场景的量化研究，配套的标注工具链允许研究者复现分析流程或构建新基准测试。使用时需注意遵守CC BY-NC-SA 4.0许可协议。

背景与挑战

背景概述

HealthChat-11K是由Akshay Paruchuri等人于2025年创建的一个专注于健康信息查询的对话数据集，包含11,000条真实世界对话和25,000条用户消息。该数据集源自大规模对话AI数据集（如LMSYS-Chat-1M和WildChat-1M）的筛选和标注，旨在系统研究用户在21个不同健康专科领域与大型语言模型（LLM）的交互模式。其核心研究问题聚焦于用户如何通过对话式AI获取医疗健康信息，以及这些交互中存在的潜在风险（如信息不完整、情感行为及诱导性提问）。该数据集通过临床医生驱动的分类法，为改进LLM在医疗健康支持中的能力提供了重要资源，推动了对话式AI在医疗领域的应用研究。

当前挑战

HealthChat-11K面临的挑战主要包括两方面：领域问题挑战和构建过程挑战。在领域问题方面，数据集需解决用户通过对话式AI获取健康信息时的模糊性、不完整上下文及诱导性提问（如导致模型附和）等问题，这些问题可能影响LLM提供信息的准确性和安全性。构建过程中的挑战包括：1）从海量对话中精准筛选健康相关内容的复杂性；2）多轮对话标注的粒度与一致性要求；3）临床分类法的设计与应用需平衡专业性与普适性；4）处理用户隐私与数据脱敏的伦理问题。此外，数据集的英语语言局限性和潜在样本偏差也限制了其泛化能力。

常用场景

经典使用场景

HealthChat-11K数据集在医疗健康领域的自然语言处理研究中具有广泛的应用价值。该数据集包含了11,000个真实世界的对话，涵盖了21个不同的医疗专科领域，如心理健康、心脏病学和儿科等。研究人员可以利用这些数据来分析患者如何通过对话系统寻求医疗建议，从而改进现有的医疗聊天机器人。数据集的多轮对话特性使其特别适合研究用户在医疗信息查询中的交互模式，例如症状描述、治疗建议和情感表达。

衍生相关工作

HealthChat-11K已经衍生出多项重要的研究工作。例如，基于该数据集的研究揭示了医疗对话中用户常见的不完整上下文提供行为，推动了AI系统在信息补全方面的改进。此外，该数据集还被用于研究医疗对话中的情感表达和用户引导问题，为减少AI系统的附和倾向提供了数据支持。其他相关研究还包括利用该数据集开发新的医疗对话评估基准，以及探索多语言和多文化背景下的医疗信息查询行为。

数据集最近研究

HealthChat-11K

HealthChat数据集概述

数据集基本信息

数据集内容

相关研究支持

数据获取