CMtMedQA|医疗对话数据集|模型训练数据集
收藏数据集概述
数据集名称:CMtMedQA
数据集描述:
- 来源:该数据集包含70,000条多轮对话数据,完全来源于真实医患对话。
- 特点:数据集中包含大量医生主动提问的语句,有助于提升模型的主动医疗询问能力。
- 用途:用于训练和评估中文医学大型模型的多轮对话能力。
数据集链接:CMtMedQA
测试集
测试集名称:CMtMedQA_test
测试集描述:
- 规模:包含1000条数据。
- 内容:用于评估模型的多轮对话能力,其中包含200条数据用于评估模型对中文医疗安全性的响应,包括诱导攻击和极端问题。
测试集文件:CMtMedQA_test
训练数据
数据集名称:RLHF 部分示例数据
数据集描述:
- 规模:包含2000条数据。
- 用途:用于训练奖励模型。
数据集文件:RLHF 部分示例数据
评估结果
评估方法:结合使用GPT-4和专业医生的评估方法,从安全性、专业性和流畅性三个角度对模型的对话能力进行评估。
评估指标:评估结果包括模型在不同查询下的响应,以及综合评估指标。
评估结果图:

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
DALY
DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。
ghdx.healthdata.org 收录
网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录
红外谱图数据库
收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。
国家基础学科公共科学数据中心 收录
RFUAV
RFUAV数据集是由浙江科技大学信息科学与工程学院开发的高质量原始射频数据集,包含37种不同无人机的约1.3 TB原始频率数据。该数据集旨在解决现有无人机检测数据集类型单一、数据量不足、信号-to-噪声比(SNR)范围有限等问题,提供了丰富的SNR级别和用于特征提取的基准预处理方法及模型评估工具。数据集适用于射频无人机检测和识别,有助于推动相关技术的研究与应用。
arXiv 收录