QUILT-1M Pathology Dataset|图像处理数据集|病理学数据集
收藏数据集概述
数据集名称
- QUILT-1M Pathology Dataset
数据集描述
- 该数据集用于文本条件图像合成,已标注1%的数据用于识别常见的图像杂质,这些杂质可能影响图像生成质量。
- 提供了剩余99%数据的预测结果。
- 使用CONCH视觉-语言模型提供的文本-图像对齐分数。
数据集内容
- 标注了以下类别的图像:
- 叙述者/人物
- 桌面/窗口装饰/幻灯片查看器
- 文本/徽标
- 质量不足的图像
- 附加幻灯片概览
- 附加按钮/控制元素
- 多面板图像
数据集使用
- 提供了三个标注文件:
train_annotations.csv
:训练集(70%)val_annotations.csv
:验证集(15%)test_annotations.csv
:测试集(15%)
- 用户需单独下载QUILT-1M数据集,并将标注文件放置于本仓库的
images
文件夹中,使用提供的Train-QUILTCleaner.ipynb
笔记本训练模型。
引用信息
@inproceedings{aubreville2024modelbased, title={Model-based Cleaning of the QUILT-1M Pathology Dataset for Text-Conditional Image Synthesis}, author={Marc Aubreville and Jonathan Ganz and Jonas Ammeling and Christopher C. Kaltenecker and Christof A. Bertram}, booktitle={Medical Imaging with Deep Learning}, url={https://openreview.net/forum?id=m7wYKrUjzV}, year={2024}, eprint={2404.07676}, archivePrefix={arXiv}, }

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
WideIRSTD Dataset
WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。
github 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
中国农村教育发展报告
该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。
www.moe.gov.cn 收录