LC25000|医学图像分析数据集|图像分类数据集
收藏LC25000-clean 病理学基准数据集
数据集概述
LC25000-clean 数据集是一个用于病理学图像分类的大型数据集,包含 25000 张图像(从全切片图像中提取的补丁),每类 5000 张图像。该数据集旨在通过清理和分组高度相关的图像来减少模型性能的过高估计。
数据集内容
- 清理后的数据集:包含高度相关图像的分组。
- 半自动清理管道代码:用于清理和分组图像。
- 评估代码:用于使用清理后的数据集作为新病理学基础模型的最小设置基准。
数据集结构
数据集的目录结构如下:
LC25000-clean (本仓库) README.md annotations/ ... LC25000/ lung_aca/ lungaca1.jpg lungaca2.jpg ... lung_n/ lungn1.jpg lungn2.jpg ... lung_scc/ lungscc1.jpg lungscc2.jpg ... colon_aca/ colonaca1.jpg colonaca2.jpg ... colon_n/ colonn1.jpg colonn2.jpg ...
数据集下载
可以从官方 GitHub 仓库或 HuggingFace 下载 LC25000 数据集。
数据集清理流程
- 特征提取:使用预训练的 UNI 模型从 LC25000 数据集的每个类别中提取特征,并保存为
features.npy
文件。 - 聚类和手动标注:使用 scikit-learn 的 KMeans 聚类算法对提取的特征进行聚类,并手动比较样本与代表图像,以确定其归属。
- 特征评估:使用手动标注作为基准,评估特征的质量,包括检索指标、二元连接性指标和聚类指标。
数据集评估
- 检索指标:precision@1, precision@5
- 二元连接性指标:混淆矩阵、准确率、精确率、召回率、F1 分数、特异性、平衡准确率
- 聚类指标:Fowlkes-Mallows 指数、调整兰德指数(ARI)、归一化互信息(NMI)、同质性、完整性、V-Measure
分类实验
使用清理后的数据集进行分类实验,以了解数据集污染对性能的影响。实验设置包括不同数据集版本、训练/测试分割比例、特征提取器和分类器。
新模型评估
要评估新模型,请按照以下步骤操作:
- 下载数据并设置环境。
- 准备模型并提取特征。
- 使用
evaluate_clustering.py
脚本评估特征。 - 使用
4-analyze-clustering-results.ipynb
笔记本分析评估结果。 - 使用
5-one-shot-and-linear-probing.ipynb
笔记本运行分类实验。

rag-datasets/rag-mini-bioasq
该数据集主要用于问答和句子相似性任务,涉及生物医学领域。数据集包含两个配置:text-corpus和question-answer-passages,分别对应不同的数据文件路径。数据集来源于BioASQ任务11b的训练数据集,并通过`generate.py`脚本生成了子集。
hugging_face 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
中国30米分辨率土壤可蚀性因子数据集
该数据集为2018年中国30米分辨率土壤可蚀性因子(K)栅格数据,数据是利用中国1979-1994年的全国第二次土壤普查的成果数据进行计算;再利用径流小区观测数据修正计算结果;将修订结果利用反距离权重插值法插值生成栅格数据。特殊地类河湖库塘、冰川及永久积雪、裸岩土地类型K因子值强制赋值为0。如果用户采用的土地利用精度较高,建议重新对以下土地类型的K因子强制赋值为0:河湖库塘、冰川及永久积雪、裸岩。如果有K值为0,但不属于上述类型的,K因子可按如下原则:取邻近相同土地类型图斑的K值,或取与该图斑邻近且不等于0的所有图斑K值的平均值。
国家地球系统科学数据中心 收录
PQAref
PQAref数据集是一个用于生物医学领域参考问答任务的数据集,旨在微调大型语言模型。该数据集包含三个部分:指令(问题)、摘要(从PubMed检索的相关摘要,包含PubMed ID、摘要标题和内容)和答案(预期答案,包含PubMed ID形式的参考)。数据集通过半自动方式创建,利用了PubMedQA数据集中的问题。
huggingface 收录
CAP-DATA
CAP-DATA数据集由长安大学交通学院的研究团队创建,包含11,727个交通事故视频,总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口,还提供了详细的文本描述,包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息,提高交通事故预测的准确性和解释性,从而支持更安全的驾驶决策系统。
arXiv 收录