ticoAg/Medical-Dialogue-System

Name: ticoAg/Medical-Dialogue-System
Creator: ticoAg
Published: 2023-08-19 10:57:30
License: 暂无描述

Hugging Face2023-08-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ticoAg/Medical-Dialogue-System

下载链接

链接失效反馈

官方服务：

资源简介：

非常简单的场景对话，但可能出现真实场景信息，比如XX医院，XX医生。对纯指令数据质量要求较高的需要进一步清洗，只用来健康场景微调可能足够。

This dataset consists of very simple scenario-based dialogues, which may include real-world contextual details such as XX Hospital and XX physician. Further cleaning is necessary for applications that require high-quality pure instruction data; nonetheless, it is sufficient for fine-tuning exclusively in healthcare scenarios.

提供机构：

ticoAg

原始信息汇总

数据集概述

基本信息

数据行数: 3206606
文件大小: 2.09 GB
许可证: Apache-2.0
任务类别:
- 问答
- 文本生成
语言: 中文
数据规模: 1M<n<10M

描述

数据集包含非常简单的场景对话，可能包含真实场景信息，如XX医院、XX医生。
适用于对纯指令数据质量要求较高的场景，可能需要进一步清洗。
主要用于健康场景的微调。

数据来源

数据集来源于Medical-Dialogue-System。

数据格式

数据以JSON格式存储，包含以下字段：
- instruction: 指令（可能为空）
- input: 输入文本
- output: 输出文本
- history: 对话历史记录

使用示例

python from datasets import load_dataset ds = load_dataset("ticoAg/Medical-Dialogue-System")

处理脚本

数据处理脚本包括加载、过滤和格式化数据等步骤。 python data_dir = Path("medical_dialogdataprocessed-chinese") raw_train_ds = loadJS(data_dir.joinpath("train_data.json")) raw_test_ds = loadJS(data_dir.joinpath("test_data.json")) raw_valid_ds = loadJS(data_dir.joinpath("validate_data.json")) raw_ds = raw_train_ds + raw_test_ds + raw_valid_ds _ds = [] for i in tqdm(raw_ds): _diag = [{"role": dialog[:2], "content": dialog[3:]} for dialog in i] meta_data = sft_meta(input=_diag[0][content], output=_diag[1][content]) if len(_diag[1][content]) <= 6: continue # 过滤掉太短的单次回复 if len(_diag) > 2: meta_data[history] = [[_diag[2idx][content], _diag[2idx+1][content]] for idx in range(len(_diag)//2)][1:] meta_data = sortDict(meta_data) _ds += [meta_data]

搜集汇总

数据集介绍

构建方式

在医疗对话系统研究领域，ticoAg/Medical-Dialogue-System数据集通过整合开源医疗对话资源构建而成。其原始数据来源于公开的医疗对话语料，经过结构化处理，将对话内容转化为包含指令、输入、输出及历史对话记录的标准化JSON格式。构建过程中采用了脚本对原始数据进行清洗与重组，过滤了过短的回复，并保留了多轮对话的历史上下文，确保了数据在医疗场景下的连贯性与实用性。

特点

该数据集以中文医疗对话为核心，涵盖了丰富的真实场景信息，如具体医院与医生名称，呈现出较高的场景真实性。其对话内容涉及多种疾病描述与诊疗建议，结构上包含单轮与多轮交互，能够支持复杂的对话生成任务。数据规模庞大，包含超过320万行记录，为模型训练提供了充足的语料基础，适用于医疗问答与文本生成等自然语言处理任务。

使用方法

用户可通过Hugging Face的datasets库直接加载该数据集，使用load_dataset函数即可获取训练、测试与验证子集。数据以JSON格式组织，包含input、output和history等字段，便于模型进行指令微调或对话生成训练。研究人员可根据需要进一步清洗数据，以提升指令数据的质量，或直接应用于健康领域的模型微调，以增强其在医疗对话场景下的表现。

背景与挑战

背景概述

在人工智能与医疗健康交叉领域，对话系统的构建对于提升医患沟通效率、辅助诊断及健康咨询具有深远意义。ticoAg/Medical-Dialogue-System数据集由UCSD-AI4H等研究机构于近年推出，旨在通过大规模真实医患对话记录，探索自然语言处理技术在医疗场景中的应用潜力。该数据集聚焦于中文医疗对话的生成与问答任务，其核心研究问题在于如何利用海量非结构化对话数据，训练出能够理解复杂医学描述、提供准确健康建议的智能系统。作为医疗对话领域的重要资源，它不仅推动了临床语言模型的发展，也为远程医疗、个性化健康管理等应用奠定了数据基础。

当前挑战

该数据集面临的挑战主要体现在两个方面：在领域问题层面，医疗对话涉及高度专业化的术语、模糊的症状描述以及严谨的临床逻辑，要求模型具备深度的医学知识推理能力，同时需避免生成误导性建议以确保患者安全；在构建过程中，原始对话数据包含大量非标准化表达、隐私信息（如具体医院或医生名称）以及简短无效回复，数据清洗与去标识化工作极为繁重，且需在保留对话真实性与保护用户隐私之间取得平衡，这对数据质量与合规性提出了严峻考验。

常用场景

经典使用场景

在医疗人工智能领域，对话系统的构建依赖于高质量的专业语料。ticoAg/Medical-Dialogue-System数据集以其大规模的中文医患对话记录，为研究者提供了丰富的训练资源。该数据集最经典的使用场景在于训练医疗问答模型，通过模拟真实诊疗过程中的交互模式，使模型能够理解患者对症状的描述，并生成符合医学逻辑的回应。这种场景不仅涵盖了常见疾病的咨询，还涉及诊断建议、治疗指导等环节，为构建专业化、人性化的医疗对话智能体奠定了数据基础。

衍生相关工作

围绕该数据集，学术界已衍生出多项具有影响力的研究工作。部分研究专注于对话生成质量的提升，通过引入医学知识图谱或强化学习策略，优化模型回复的专业性与安全性。另一些工作则探索了多轮对话的连贯性建模，利用数据中的历史对话记录，增强系统对诊疗上下文的理解。此外，也有学者基于该数据集构建了医疗对话评估基准，推动了相关任务的标准化测评。这些经典工作共同推动了医疗对话系统向更精准、更可靠的方向演进。

数据集最近研究