krishnareddy/triage-questions

Name: krishnareddy/triage-questions
Creator: krishnareddy
Published: 2023-08-30 13:32:06
License: 暂无描述

Hugging Face2023-08-30 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/krishnareddy/triage-questions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集设计用于监督微调llam2模型，以根据提供的患者主诉、年龄和性别生成分诊问题。数据结构以JSON格式表示，包含两个主要部分：`input`和`questions`。`input`部分包含患者的主诉、年龄和性别信息，`questions`部分包含与患者主诉相关的问题数组，每个问题有`questionType`、`question`和`options`（如果适用）。此外，README还提供了用于微调llam2模型的指令集，包括生成分诊问题的通用指令、输入患者基本信息和输出问题JSON结构的示例。

This dataset is designed for supervised fine-tuning of the Llama 2 model to generate triage questions based on provided patient chief complaints, age, and gender. Its data structure is represented in JSON format, consisting of two main sections: `input` and `questions`. The `input` section contains the patient's chief complaint, age, and gender information, while the `questions` section includes an array of questions related to the patient's chief complaint. Each question has fields `questionType`, `question`, and `options` (if applicable). Additionally, the README provides instruction sets for fine-tuning the Llama 2 model, including general instructions for generating triage questions, examples of inputting basic patient information, and outputting JSON-structured questions.

提供机构：

krishnareddy

原始信息汇总

医疗分诊投诉数据结构说明

该数据结构用于监督式微调llam2模型，根据提供的患者投诉、年龄和性别生成分诊问题。

JSON格式

数据结构以JSON格式表示，包含两个主要部分：input和questions。

输入部分

input部分包含患者的投诉、年龄和性别信息。

json { "input": { "complaint": "患者的主要/主诉", "age": "患者的年龄（以年为单位）", "gender": "患者的性别（女性或男性）" } }

问题部分

questions部分包含与患者特定投诉相关的问题数组。每个问题包含questionType、question和一个options集合（如果适用）。

json { "questions": [ { "questionType": "select-option", "question": "问题文本", "options": ["选项1", "选项2", ...] }, { "questionType": "text", "question": "自由文本问题" }, // 根据需要添加更多问题 ] }

"questionType"可以是"select-option"（多选题）或"text"（开放式文本问题）。
"question"是问题的文本。
"options"（如果存在）是可能的答案选项数组。

微调llam2模型的指令集准备

训练记录中的每个"text"样本包含以下三个部分：

使用以下通用指令生成基于患者年龄、性别和投诉的分诊问题

指令:

作为一位高度熟练的医生，您的任务是通过提出各种临床问题来评估患者的临床状况。您将获得患者的年龄、性别和主诉，并需要生成更细粒度的分诊问题，以JSON格式表示，JSON数据的键如下：

question:<有助于更清晰地理解患者状况的临床分诊问题> questionType: <问题类型，可以是期望文本回答或选择选项，设置以下类型之一 "text" 或 "option"> options: <如果问题类型是选项，提供可能的选项>

并且不要生成除JSON数据对象之外的任何额外文本。每个对象应以逗号分隔。遵循JSON标准语法。

问题数量应至少8个，最多15个，以清晰地理解患者状况。

添加###Input作为患者基本信息

输入:

{"input": {"complaint": "患者的主要/主诉","age": "患者的年龄（以年为单位）","gender": "患者的性别（女性或男性）"}}

添加问题JSON结构作为输出

输出:

{"questions": [{"questionType": "select-option","question": "您如何描述喉咙痛的严重程度？","options": ["轻微", "中度", "严重"]}, {"questionType": "select-option", "question": "您是否伴有发烧的喉咙痛？", "options": ["否", "是"]}, {"questionType": "text","question": "您还有什么想分享的吗？"}]}

最终指令样本

指令:

并且不要生成除JSON数据对象之外的任何额外文本。每个对象应以逗号分隔。遵循JSON标准语法。

问题数量应至少8个，最多15个，以清晰地理解患者状况。

输入:

{"input": {"complaint": "患者的主要/主诉","age": "患者的年龄（以年为单位）","gender": "患者的性别（女性或男性）"}}

输出:

搜集汇总

数据集介绍

构建方式

在医疗分诊领域，数据集的构建需模拟真实临床场景。该数据集通过结构化JSON格式整合患者主诉、年龄与性别等关键信息，并生成相应的分诊问题。构建过程遵循特定指令模板，确保每个样本包含标准化的输入与输出部分，旨在为大型语言模型的监督微调提供高质量、格式统一的训练数据，从而支持自动化分诊系统的开发。

使用方法

使用该数据集时，需遵循其预设的指令微调框架。用户将患者基本信息作为输入，模型则依据指令生成符合JSON格式的分诊问题输出。该方法适用于对Llama2等大型语言模型进行监督微调，以提升其在医疗分诊任务中的表现。数据集可直接用于训练流程，无需额外预处理，确保了研究与应用的高效推进。

背景与挑战

背景概述

在医疗人工智能领域，临床分诊的自动化处理是提升医疗服务效率与精准度的关键研究方向。数据集krishnareddy/triage-questions由研究人员Krishna Reddy创建，旨在通过结构化数据支持大型语言模型如Llama-2的监督微调，以生成基于患者主诉、年龄和性别的分诊问题。该数据集的核心研究问题聚焦于如何利用人工智能模拟资深医生的临床思维，从有限的患者初始信息中自动衍生出细致、相关的医学询问，从而辅助医疗决策流程。其出现反映了当前医疗AI从单纯分类任务向复杂交互式诊断支持演进的重要趋势，为临床自然语言处理与智能分诊系统的开发提供了宝贵资源。

当前挑战

该数据集致力于解决医疗分诊自动化中的核心挑战，即如何使AI模型能够基于碎片化的患者信息，生成逻辑严密、临床相关且符合医学规范的分诊问题序列。这要求模型不仅需理解医学知识，还需具备情境推理与问题构建能力。在数据构建过程中，挑战同样显著：首先，确保生成的问题具有临床有效性与安全性，需依赖严谨的医学知识进行校验；其次，设计兼顾开放性与结构化的数据格式（如混合选择型与文本型问题），以覆盖多样化的临床场景；此外，保持问题数量与质量的平衡，在8至15个问题的限定范围内实现信息收集的最大化，亦对数据标注的深度与一致性提出了较高要求。

常用场景

经典使用场景

在医疗分诊领域，该数据集为大型语言模型的监督微调提供了结构化范例，旨在基于患者主诉、年龄和性别生成精细化分诊问题。通过输入患者基本信息，模型能够输出一系列临床问题，涵盖选择题和开放文本类型，从而模拟医生进行初步病情评估的逻辑流程。这种设计不仅强化了模型对医疗语境的理解，还提升了其生成问题的针对性与临床相关性，为自动化分诊系统的开发奠定了数据基础。

解决学术问题

该数据集有效应对了医疗人工智能研究中分诊问题生成的数据稀缺挑战，通过结构化标注解决了模型输出标准化与临床实用性之间的平衡问题。其意义在于为自然语言处理与临床医学的交叉研究提供了可复现的基准，推动了生成式模型在医疗对话系统中的应用。该数据集的影响体现在促进了医疗分诊自动化技术的演进，为后续研究提供了高质量、可扩展的数据范式，加速了智能医疗辅助工具的学术探索与实际部署。

实际应用

在实际医疗场景中，该数据集可支撑智能分诊系统的开发，辅助医护人员快速收集患者症状细节，优化急诊或初级保健中的分流效率。通过集成到医疗聊天机器人或电子健康记录系统，能够自动生成个性化问诊问题，减轻临床工作负担，同时确保问诊过程的规范性与完整性。此类应用不仅提升了医疗服务的响应速度，也为远程医疗与健康监测提供了可靠的技术支持。

数据集最近研究