CMB Chinese-Medical-Benchmark|医学评估数据集|医学训练数据集
收藏中文医学数据集详细整理
1、【分类&医疗问答】CMB Chinese-Medical-Benchmark
1.1、CMD数据集汇总
名称 | 内容 | 数据量 | 数据下载 |
---|---|---|---|
CMB-Exam | 医学知识综合多层次评估 | train/valid/test: 269359/280/11200 | 百度网盘<br />其他下载方式git clone/huggingface从CMD基准介绍网址获取 |
CMB-Clin | 74例复杂医疗询问 | 74 | 百度网盘<br />其他下载方式git clone/huggingface从CMD基准介绍网址获取 |
1.2、数据示例
1.2.1、CMD-Exam数据示例
json { "exam_type": "医师考试", "exam_class": "执业医师", "exam_subject": "口腔执业医师", "question": "患者,男性,11岁。近2个月来时有低热(37~38℃),全身无明显症状。查体无明显阳性体征。X线检查发现右肺中部有一直径约0.8cm类圆形病灶,边缘稍模糊,肺门淋巴结肿大。此男孩可能患", "answer": "D", "question_type": "单项选择题", "option": { "A": "小叶型肺炎", "B": "浸润性肺结核", "C": "继发性肺结核", "D": "原发性肺结核", "E": "粟粒型肺结核" } },
1.2.2、CMD-Clin数据示例
json { "id": 0, "title": "案例分析-腹外疝", "description": "现病史 (1)病史摘要 病人,男,49岁,3小时前解大便后出现右下腹疼痛,右下腹可触及一包块,既往体健。 (2)主诉 右下腹痛并自扪及包块3小时。
体格检查 体温: T 37.8℃,P 101次/分,呼吸22次/分,BP 100/60mmHg,腹软,未见胃肠型蠕动波,肝脾肋下未及,于右侧腹股沟区可扪及一圆形肿块,约4cm×4cm大小,有压痛、界欠清,且肿块位于腹股沟韧带上内方。
辅助检查 (1)实验室检查 血常规:WBC 5.0×109/L,N 78%。 尿常规正常。 (2)多普勒超声检查 沿腹股沟纵切可见一多层分布的混合回声区,宽窄不等,远端膨大,边界整齐,长约4~5cm。 (3)腹部X线检查 可见阶梯状液气平。", "QA_pairs": [ { "question": "简述该病人的诊断及诊断依据。", "solution": "诊断:嵌顿性腹股沟斜疝合并肠梗阻。 诊断依据: ①右下腹痛并自扪及包块3小时; ②有腹胀、呕吐,类似肠梗阻表现;腹部平片可见阶梯状液平,考虑肠梗阻可能;腹部B超考虑, 腹部包块内可能为肠管可能; ③有轻度毒性反应或是中毒反应,如 T 37.8℃,P 101次/分,白细胞中性分类78%; ④腹股沟区包块位于腹股沟韧带上内方。" }, { "question": "简述该病人的鉴别诊断。", "solution": "(1)睾丸鞘膜积液:鞘膜积液所呈现的肿块完全局限在阴囊内,其上界可以清楚地摸到;用透光试验检查肿块,鞘膜积液多为透光(阳性),而疝块则不能透光。 (2)交通性鞘膜积液:肿块的外形与睾丸鞘膜积液相似。于每日起床后或站立活动时肿块缓慢地出现并增大。平卧或睡觉后肿块逐渐缩小,挤压肿块,其体积也可逐渐缩小。透光试验为阳性。 (3)精索鞘膜积液:肿块较小,在腹股沟管内,牵拉同侧睾丸可见肿块移动。 (4)隐睾:腹股沟管内下降不全的睾丸可被误诊为斜疝或精索鞘膜积液。隐睾肿块较小,挤压时可出现特有的胀痛感觉。如患侧阴囊内睾丸缺如,则诊断更为明确。 (5)急性肠梗阻:肠管被嵌顿的疝可伴发急性肠梗阻,但不应仅满足于肠梗阻的诊断而忽略疝的存在;尤其是病人比较肥胖或疝块较小时,更易发生这类问题而导致治疗上的错误。 (6)此外,腹股沟区肿块还应与以下疾病鉴别:肿大的淋巴结、动(静)脉瘤、软组织肿瘤、脓肿、 圆韧带囊肿、子宫内膜异位症等。" }, { "question": "简述该病人的治疗原则。", "solution": "嵌顿性疝原则上需要紧急手术治疗,以防止疝内容物坏死并解除伴发的肠梗阻。术前应做好必要的准备,如有脱水和电解质紊乱,应迅速补液加以纠正。手术的关键在于正确判断疝内容物的活力,然后根据病情确定处理方法。在扩张或切开疝环、解除疝环压迫的前提下,凡肠管呈紫黑色,失去光泽和弹性,刺激后无蠕动和相应肠系膜内无动脉搏动者,即可判定为肠坏死。如肠管尚未坏死,则可将其送回腹腔,按一般易复性疝处理,即行疝囊高位结扎+疝修补术。如肠管确已坏死或一时不能肯定肠管是否已失去活力时,则应在病人全身情况允许的前提下,切除该段肠管并进行一期吻合。凡施行肠切除吻合术的病人,因手术区污染,在高位结扎疝囊后,一般不宜作疝修补术,以免因感染而致修补失败。" } ] },
2、【医疗问答】Huatuo-26M
2.1、Huatuo数据集汇总
名称 | 数据量 | 数据下载 |
---|---|---|
在线医疗百科 | 364,420 | huatuo_encyclopedia_qa |
医疗知识图谱 | 798,444 | huatuo_knowledge_graph_qa |
网络上的公开医疗问答论坛 | 32,708,346 | huatuo_consultation_qa |
论文中使用的huatuo测试集 | 6,000 | huatuo26M-testdatasets |
2.2、数据示例
2.2.1、在线医疗百科数据示例
json { "questions": [["睾丸积液是怎么造成的"]], "answers": ["睾丸积液即睾丸鞘膜积液,睾丸鞘膜积液是围绕睾丸的鞘膜腔内液体积聚超过正常量,而形成的囊肿病变,可见于各种年龄,是一种临床常见疾病,睾丸鞘膜是包在睾丸外面的双层膜,是睾丸从腹腔下降过程中带入阴囊的腹膜,睾丸积液是怎么造成的?在胚胎发育的过程中,睾丸是不位于阴囊的,它是在后腹膜。随着胎儿的发育,逐渐下降,在出生时下降进入阴囊。进入阴囊后会带一部分腹膜,出生时腹膜的腔与腹腔关闭、不通。正常情况下,睾丸鞘膜腔会有少量的液体,起到润滑的作用。如果睾丸鞘膜腔内的液体生成速度大于吸收的速度。那么在鞘膜腔内的积液会逐渐增多,从而导致了睾丸鞘膜积液。睾丸鞘膜积液多了,可以影响排尿,所以出现睾丸鞘膜积液,还是应该手术治疗。睾丸鞘膜积液是一种比较常见的疾病,主要的发病原因是由于急性附睾炎,或者附睾肿瘤等相关疾病造成的。另外,如果鞘状突闭合不佳,也可以出现睾丸鞘膜积液。睾丸鞘膜积液可以通过彩超等检查明确诊断。如果是肿瘤引起的,这个情况需要切除肿瘤,才能够彻底治愈。急性附睾炎或者鞘状突闭合不佳造成的鞘膜积液,一般需要通过手术的方式才能治愈。正常情况下,睾丸鞘膜腔内的液体的分泌与吸收保持着一个相对的平衡的状态,使睾丸鞘膜腔内液体保持少量状态。当分泌过多或者淋巴、静脉回收减少的时候睾丸鞘膜腔内的液体滞留过多,引起积液。严重时可引起阴囊坠胀痛,甚至阴茎回缩影响排尿。以上介绍了睾丸积液是怎么造成的,睾丸鞘膜积液是围绕睾丸的鞘膜腔内液体积聚超过正常量,而形成的囊肿病变,可见于各种年龄,是一种临床常见疾病,继发性鞘膜积液有原发性疾病,如急性睾丸炎、附睾炎、精索炎等,刺激鞘膜渗出增加,造成积液。"] }
2.2.2、医疗知识图谱
json { "questions": ["自体及异体CIK的临床表现有些什么?"], "answers": ["低热"] }
2.2.3、网络上的公开医疗问答论坛
json { "questions": ["左侧髋骨粉碎性骨折多久才能走路"], "answers": ["https://www.51zyzy.com/question/detail/9814309.html"] }
2.2.4、Huatuo测试集数据示例
json { "questions": "做了腰间盘穿丁手术后,用盐泡脚可以吗", "answers": "问题分析:你好:你是由于身体出现了一些局部的腰部损伤这种情况应该进行调整的一般术后泡脚是可以的,不用担心。意见建议:治疗方案:你可以不知后注意休息,避免劳累过度就可以这种调整方法也可以住进你身体的一些嗯调理的啊!" }
3、【实体识别&属性抽取】Yidu-S4K
3.1、数据集汇总
名称 | 任务 | 数据量 | 数据下载 |
---|---|---|---|
subtask1 | 医疗命名实体识别 | train/test:1000/379 | http://openkg1.oss-cn-beijing.aliyuncs.com/590d97bd-18fb-49d1-89f8-d6a3802b2040/yidu-s4k.zip |
subtask2 | 医疗实体及属性抽取(跨院迁移) | unlabeled:1000<br />train/test:500/400 | http://openkg1.oss-cn-beijing.aliyuncs.com/590d97bd-18fb-49d1-89f8-d6a3802b2040/yidu-s4k.zip |
3.2、任务描述
- 医疗命名实体识别:对于给定的一组电子病历纯文本文档,任务的目标是识别并抽取出与医学临床相关的实体提及(entity mention),并将它们归类到预定义类别(pre-defined categories),比如疾病、治疗、检查检验等。
- 给定的一组电子病历纯文本文档,定义若干与医疗相关的目标字段,如肿瘤大小,肿瘤原发部位等,任务的目标是识别并抽取目标字段的答案实体,比如左肺,肺叶等。 本任务为实体及属性抽取问题的跨院迁移任务,即在只提供需要识别的场景的少量标注数据的情况下,提供大量来自其他场景的已知数据分布不同的标注数据,以及大量非标注数据,进行目标场景的识别任务。
3.3、数据示例
3.3.1、医疗命名实体识别数据示例
json { "originalText": ",患者3月前因“直肠癌”于在我院于全麻下行直肠癌根治术(DIXON术),手术过程顺利,术后给予抗感染及营养支持治疗,患者恢复好,切口愈合良好。,术后病理示:直肠腺癌(中低度分化),浸润溃疡型,面积3.5*2CM,侵达外膜。双端切线另送“近端”、“远端”及环周底部切除面未查见癌。肠壁一站(10个)、中间组(8个)淋巴结未查见癌。,免疫组化染色示:ERCC1弥漫(+)、TS少部分弱(+)、SYN(-)、CGA(-)。术后查无化疗禁忌后给予3周期化疗,,方案为:奥沙利铂150MG D1,亚叶酸钙0.3G+替加氟1.0G D2-D6,同时给与升白细胞、护肝、止吐、免疫增强治疗,患者副反应轻。院外期间患者一般情况好,无恶心,无腹痛腹胀胀不适,无现患者为行复查及化疗再次来院就诊,门诊以“直肠癌术后”收入院。 近期患者精神可,饮食可,大便正常,小便正常,近期体重无明显变化。", "entities": [{"label_type": "疾病和诊断", "overlap": 0, "start_pos": 8, "end_pos": 11}, {"label_type": "手术", "overlap": 0, "start_pos": 21, "end_pos": 35}, {"label_type": "疾病和诊断", "overlap": 0, "start_pos": 78, "end_pos": 95}, {"label_type": "解剖部位", "overlap": 0, "start_pos": 139, "end_pos": 159}, {"end_pos": 234, "label_type": "药物", "overlap": 0, "start_pos": 230}, {"end_pos": 247, "label_type": "药物", "overlap": 0, "start_pos": 243}, {"end_pos": 255, "label_type": "药物", "overlap": 0, "start_pos": 252}, {"label_type": "解剖部位", "overlap": 0, "start_pos": 276, "end_pos": 277}, {"label_type": "解剖部位", "overlap": 0, "start_pos": 312, "end_pos": 313}, {"label_type": "解剖部位", "overlap": 0, "start_pos": 314, "end_pos": 315}, {"label_type": "疾病和诊断", "overlap": 0, "start_pos": 342, "end_pos": 347}] }
3.3.2、医疗实体及属性抽取(跨院迁移)数据示例
原文 | 肿瘤原发部位 | 原发病灶大小 | 转移部位 |
---|---|---|---|
右乳术后缺如,部分胸肌存在,术区胸壁及皮肤局部略增厚;右侧腋窝术后,结构紊乱。左乳未见明确异常。右侧内乳区、左侧腋窝可见小淋巴结,大者短径不足0.5CM。右肺中叶见一结节 |

光伏电站发电量预估数据
1、准确预测一个地区分布式光伏场站的整体输出功率,可以提高电网的稳定性,增加电网消纳光电能量的能力,在降低能源消耗成本的同时促进低碳能源发展,实现动态供需状态预测的方法,为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量,可以自动发现一些有故障的设备或者低效电站,提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理,用累计发电量矫正小时平均发电功率,剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作,剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据,其中误差率=(发电量-预估发电量)/发电量,当误差率低于一定阈值时,该数据预测为准确。预测准确率=预测准确数量/预测数据总量。
浙江省数据知识产权登记平台 收录
Open Power System Data
Open Power System Data is a free-of-charge data platform dedicated to electricity system researchers. We collect, check, process, document, and publish data that are publicly available but currently inconvenient to use. The project is a service provider to the modeling community: a supplier of a public good. Learn more about its background or just go ahead and explore the data platform.
re3data.org 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
music-genres-dataset
包含1494个音乐流派的数据集,每个流派有200首歌曲。每首歌曲提供以下属性:艺术家、歌曲名称、在列表中的位置、主流派、子流派(含流行度计数)、标签(非现有流派的标签,如情感等,也含流行度计数)。
github 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录