MedFMC|医学图像数据集|机器学习数据集
收藏数据集概述
数据集结构
数据集目录结构如下:
text data/ ├── MedFMC │ ├── chest │ │ ├── images │ │ ├── chest_X-shot_train_expY.txt │ │ ├── chest_X-shot_val_expY.txt │ │ ├── train_20.txt │ │ ├── val_20.txt │ │ ├── trainval.txt │ │ ├── test_WithLabel.txt │ ├── colon │ │ ├── images │ │ ├── colon_X-shot_train_expY.txt │ │ ├── colon_X-shot_val_expY.txt │ │ ├── train_20.txt │ │ ├── val_20.txt │ │ ├── trainval.txt │ │ ├── test_WithLabel.txt │ ├── endo │ │ ├── images │ │ ├── endo_X-shot_train_expY.txt │ │ ├── endo_X-shot_val_expY.txt │ │ ├── train_20.txt │ │ ├── val_20.txt │ │ ├── trainval.txt │ │ ├── test_WithLabel.txt
数据集内容
.txt
文件包含数据分割信息,用于完全监督学习和少样本学习任务。- 公共数据集被分割为
trainval.txt
和test_WithLabel.txt
,其中trainval.txt
进一步分割为train_20.txt
和val_20.txt
,其中20
表示训练数据占trainval.txt
的 20%。 test_WithoutLabel.txt
作为每个数据集的验证集。
数据集生成
- 少样本学习数据分割文件
{dataset}_{N_shot}-shot_train/val_exp{N_exp}.txt
可以通过执行python tools/generate_few-shot_file.py
生成。 N_shot
值为 1, 5, 10,表示患者样本数,而非图像数量。
训练与评估
- 提供多种配置文件,用于完全监督任务和少样本学习任务。
- 完全监督任务配置文件存储于
./configs/densenet
,./configs/efficientnet
,./configs/vit-base
,./configs/swin_transformer
。 - 少样本学习任务配置文件存储于
./configs/ablation_exp
和./configs/vit-b16_vpt
。
结果提交
- 生成所有预测结果并压缩为
result.zip
,包含endo_N-shot_submission.csv
,colon_N-shot_submission.csv
,chest_N-shot_submission.csv
,并上传至 Grand Challenge 网站。

GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录
MedChain
MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。
arXiv 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录