five

CMedINS|医疗对话数据集|诊断支持数据集

收藏
arXiv2025-01-06 更新2025-01-08 收录
医疗对话
诊断支持
下载链接:
http://arxiv.org/abs/2501.02869v1
下载链接
链接失效反馈
资源简介:
CMedINS数据集是由中国科学院合肥物质科学研究院智能机器研究所与专业医生合作构建的医疗指令数据集,包含22万条真实医疗记录。该数据集涵盖了多个医疗部门的真实数据,经过严格的去标识化处理以保护患者隐私。数据集的内容包括医疗对话、医疗指令和一般能力数据,旨在通过监督微调和直接偏好优化方法提升模型在医疗领域的表现。该数据集的应用领域主要集中在医疗对话、诊断支持和患者咨询等方面,旨在解决医疗语言模型在专业领域知识不足的问题。
提供机构:
中国科学院合肥物质科学研究院智能机器研究所
创建时间:
2025-01-06
AI搜集汇总
数据集介绍
main_image_url
构建方式
CMedINS数据集的构建基于真实的医疗场景,通过与专业医生的合作,收集了来自多个医疗部门的实际医疗记录。数据筛选过程中,确保医疗记录的完整性和准确性,并进行了严格的去标识化处理以保护患者隐私。最终,数据集以指令-查询-答案的形式构建,涵盖了超过220,000对真实的医疗指令-答案对,涉及多种医疗任务和场景。
特点
CMedINS数据集的特点在于其多样性和专业性。数据集不仅包含了单轮对话,还涵盖了多轮对话,能够更好地模拟真实的医患交流场景。此外,数据集涵盖了超过10种医疗问答场景,确保了模型在处理复杂医疗指令时的泛化能力。通过严格的去标识化处理,数据集在保护患者隐私的同时,提供了高质量的医疗数据。
使用方法
CMedINS数据集主要用于医疗领域的大型语言模型的微调和优化。通过结合监督微调(SFT)和直接偏好优化(DPO)方法,模型能够在处理医疗指令时更好地对齐人类偏好。数据集的使用方法包括:首先,利用数据集进行监督微调,提升模型对医疗指令的理解和响应能力;其次,通过DPO方法进一步优化模型的输出策略,确保其生成的回答符合医疗专业标准和安全要求。
背景与挑战
背景概述
CMedINS数据集是由中国科学院合肥物质科学研究院智能机器研究所的研究团队于2025年推出的一个医学指令数据集,旨在提升大语言模型在医学任务中的表现。该数据集包含22万对真实的医学记录,涵盖了多种医学任务,如临床文本分类、医学意图分类等。CMedINS的创建是为了解决通用大语言模型在医学领域表现不佳的问题,尤其是在缺乏专业医学知识的情况下。通过结合监督微调(SFT)和直接偏好优化(DPO)方法,研究团队开发了IIMedGPT模型,该模型在医学对话任务中表现优异,超越了现有的开源医学模型。CMedINS的发布为医学领域的大语言模型研究提供了重要的数据支持,推动了医学人工智能的发展。
当前挑战
CMedINS数据集在构建和应用过程中面临多重挑战。首先,医学领域的知识复杂且专业性强,通用大语言模型在缺乏足够医学数据的情况下容易产生错误或误导性回答,这要求数据集必须包含高质量、多样化的医学指令和对话数据。其次,数据集的构建需要确保数据的隐私性和安全性,尤其是在处理真实医疗记录时,必须进行严格的去标识化处理,并通过伦理审查。此外,医学对话通常涉及多轮交互,而现有的数据集多为单轮对话,难以反映真实的医患交流场景。最后,尽管直接偏好优化(DPO)方法在提升模型对齐人类偏好方面表现出色,但其依赖于高质量的人类偏好数据,标注过程需要医学专家的参与,增加了数据集的构建成本和时间。这些挑战使得CMedINS的构建和应用在技术和资源上都面临较高的门槛。
常用场景
经典使用场景
CMedINS数据集在医学领域的经典使用场景主要集中在大规模语言模型(LLM)的微调与优化上。通过提供来自真实医疗场景的多任务指令数据集,CMedINS能够有效提升模型在医学对话中的表现。该数据集包含六种医学指令,涵盖了从疾病诊断到药物推荐等多种医疗任务,使得模型能够在处理复杂医学问题时表现出更高的准确性和专业性。
解决学术问题
CMedINS数据集解决了医学领域大规模语言模型在预训练阶段数据不足的问题,尤其是在中医等特定领域的知识匮乏。通过提供高质量的医学指令数据集,CMedINS帮助模型在微调阶段更好地适应医学任务,避免了模型在训练过程中出现的灾难性遗忘问题。此外,该数据集还通过直接偏好优化(DPO)方法,显著提升了模型在医学对话中的指令遵循能力,减少了模型过度自信的泛化问题。
衍生相关工作
CMedINS数据集的推出催生了一系列相关研究工作,尤其是在医学语言模型的优化与扩展方面。基于CMedINS,研究人员开发了IIMedGPT模型,该模型通过直接偏好优化(DPO)方法,显著提升了模型在医学对话中的表现。此外,CMedINS还为其他医学语言模型如HuatuoGPT和DoctorGLM提供了高质量的训练数据,推动了医学领域语言模型的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录