five

ticoAg/Medical-Dialogue-System

收藏
Hugging Face2023-08-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ticoAg/Medical-Dialogue-System
下载链接
链接失效反馈
官方服务:
资源简介:
非常简单的场景对话,但可能出现真实场景信息,比如XX医院,XX医生。对纯指令数据质量要求较高的需要进一步清洗,只用来健康场景微调可能足够。

This dataset consists of very simple scenario-based dialogues, which may include real-world contextual details such as XX Hospital and XX physician. Further cleaning is necessary for applications that require high-quality pure instruction data; nonetheless, it is sufficient for fine-tuning exclusively in healthcare scenarios.
提供机构:
ticoAg
原始信息汇总

数据集概述

基本信息

  • 数据行数: 3206606
  • 文件大小: 2.09 GB
  • 许可证: Apache-2.0
  • 任务类别:
    • 问答
    • 文本生成
  • 语言: 中文
  • 数据规模: 1M<n<10M

描述

  • 数据集包含非常简单的场景对话,可能包含真实场景信息,如XX医院、XX医生。
  • 适用于对纯指令数据质量要求较高的场景,可能需要进一步清洗。
  • 主要用于健康场景的微调。

数据来源

数据格式

  • 数据以JSON格式存储,包含以下字段:
    • instruction: 指令(可能为空)
    • input: 输入文本
    • output: 输出文本
    • history: 对话历史记录

使用示例

python from datasets import load_dataset ds = load_dataset("ticoAg/Medical-Dialogue-System")

处理脚本

  • 数据处理脚本包括加载、过滤和格式化数据等步骤。 python data_dir = Path("medical_dialogdataprocessed-chinese") raw_train_ds = loadJS(data_dir.joinpath("train_data.json")) raw_test_ds = loadJS(data_dir.joinpath("test_data.json")) raw_valid_ds = loadJS(data_dir.joinpath("validate_data.json")) raw_ds = raw_train_ds + raw_test_ds + raw_valid_ds _ds = [] for i in tqdm(raw_ds): _diag = [{"role": dialog[:2], "content": dialog[3:]} for dialog in i] meta_data = sft_meta(input=_diag[0][content], output=_diag[1][content]) if len(_diag[1][content]) <= 6: continue # 过滤掉太短的单次回复 if len(_diag) > 2: meta_data[history] = [[_diag[2idx][content], _diag[2idx+1][content]] for idx in range(len(_diag)//2)][1:] meta_data = sortDict(meta_data) _ds += [meta_data]
搜集汇总
数据集介绍
main_image_url
构建方式
在医疗对话系统研究领域,ticoAg/Medical-Dialogue-System数据集通过整合开源医疗对话资源构建而成。其原始数据来源于公开的医疗对话语料,经过结构化处理,将对话内容转化为包含指令、输入、输出及历史对话记录的标准化JSON格式。构建过程中采用了脚本对原始数据进行清洗与重组,过滤了过短的回复,并保留了多轮对话的历史上下文,确保了数据在医疗场景下的连贯性与实用性。
特点
该数据集以中文医疗对话为核心,涵盖了丰富的真实场景信息,如具体医院与医生名称,呈现出较高的场景真实性。其对话内容涉及多种疾病描述与诊疗建议,结构上包含单轮与多轮交互,能够支持复杂的对话生成任务。数据规模庞大,包含超过320万行记录,为模型训练提供了充足的语料基础,适用于医疗问答与文本生成等自然语言处理任务。
使用方法
用户可通过Hugging Face的datasets库直接加载该数据集,使用load_dataset函数即可获取训练、测试与验证子集。数据以JSON格式组织,包含input、output和history等字段,便于模型进行指令微调或对话生成训练。研究人员可根据需要进一步清洗数据,以提升指令数据的质量,或直接应用于健康领域的模型微调,以增强其在医疗对话场景下的表现。
背景与挑战
背景概述
在人工智能与医疗健康交叉领域,对话系统的构建对于提升医患沟通效率、辅助诊断及健康咨询具有深远意义。ticoAg/Medical-Dialogue-System数据集由UCSD-AI4H等研究机构于近年推出,旨在通过大规模真实医患对话记录,探索自然语言处理技术在医疗场景中的应用潜力。该数据集聚焦于中文医疗对话的生成与问答任务,其核心研究问题在于如何利用海量非结构化对话数据,训练出能够理解复杂医学描述、提供准确健康建议的智能系统。作为医疗对话领域的重要资源,它不仅推动了临床语言模型的发展,也为远程医疗、个性化健康管理等应用奠定了数据基础。
当前挑战
该数据集面临的挑战主要体现在两个方面:在领域问题层面,医疗对话涉及高度专业化的术语、模糊的症状描述以及严谨的临床逻辑,要求模型具备深度的医学知识推理能力,同时需避免生成误导性建议以确保患者安全;在构建过程中,原始对话数据包含大量非标准化表达、隐私信息(如具体医院或医生名称)以及简短无效回复,数据清洗与去标识化工作极为繁重,且需在保留对话真实性与保护用户隐私之间取得平衡,这对数据质量与合规性提出了严峻考验。
常用场景
经典使用场景
在医疗人工智能领域,对话系统的构建依赖于高质量的专业语料。ticoAg/Medical-Dialogue-System数据集以其大规模的中文医患对话记录,为研究者提供了丰富的训练资源。该数据集最经典的使用场景在于训练医疗问答模型,通过模拟真实诊疗过程中的交互模式,使模型能够理解患者对症状的描述,并生成符合医学逻辑的回应。这种场景不仅涵盖了常见疾病的咨询,还涉及诊断建议、治疗指导等环节,为构建专业化、人性化的医疗对话智能体奠定了数据基础。
衍生相关工作
围绕该数据集,学术界已衍生出多项具有影响力的研究工作。部分研究专注于对话生成质量的提升,通过引入医学知识图谱或强化学习策略,优化模型回复的专业性与安全性。另一些工作则探索了多轮对话的连贯性建模,利用数据中的历史对话记录,增强系统对诊疗上下文的理解。此外,也有学者基于该数据集构建了医疗对话评估基准,推动了相关任务的标准化测评。这些经典工作共同推动了医疗对话系统向更精准、更可靠的方向演进。
数据集最近研究
最新研究方向
在医疗人工智能领域,ticoAg/Medical-Dialogue-System数据集凭借其大规模的中文医患对话记录,为自然语言处理技术提供了丰富的真实场景语料。该数据集当前的研究焦点集中于提升医疗对话系统的智能诊断与交互能力,通过深度学习模型优化问答生成和意图识别,以应对复杂多变的临床咨询需求。随着全球健康科技热潮的兴起,该数据集在推动个性化医疗助手、远程健康咨询等热点应用方面展现出重要价值,不仅加速了医疗资源的数字化进程,还为改善医患沟通效率奠定了数据基础,具有显著的行业影响力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作