Kvasir-VQA|医学图像分析数据集|视觉问答数据集
收藏Kvasir-VQA 数据集概述
数据集信息
特征
- image: 图像数据
- source: 字符串,数据来源
- question: 字符串,问题
- answer: 字符串,答案
- img_id: 字符串,图像ID
分割
- raw: 原始数据分割,包含58849个样本,大小为15176464880.875字节
大小
- 下载大小: 1547864596字节
- 数据集大小: 15176464880.875字节
配置
- default: 默认配置,数据文件路径为
data/*.parquet
许可
- cc-by-nc-4.0: 非商业性使用许可
任务类别
- visual-question-answering: 视觉问答
语言
- en: 英语
数据集描述
概述
Kvasir-VQA 数据集是从 HyperKvasir 和 Kvasir-Instrument 数据集扩展而来的,增加了问题和答案的标注。该数据集旨在促进胃肠道(GI)诊断中的高级机器学习任务,包括图像描述、视觉问答(VQA)和基于文本的合成医学图像生成。
关键特性
- 总图像数: 6500张标注图像
- 标注: 包含每个图像的问题和答案对
- 问题类型: 是/否、单选、多选、颜色相关、位置相关、数量统计
- 应用: 图像描述、VQA、合成医学图像生成、目标检测等
图像类别
图像类别 | 样本数量 | 来源数据集 |
---|---|---|
正常 | 2500 | HyperKvasir |
息肉 | 1000 | HyperKvasir |
食管炎 | 1000 | HyperKvasir |
溃疡性结肠炎 | 1000 | HyperKvasir |
器械 | 1000 | Kvasir-Instrument |
总计 | 6500 |
标注过程
标注由医学专业人员参与,包含六种类型的问题:
- 是/否问题
- 单选问题
- 多选问题
- 颜色相关问题
- 位置相关问题
- 数量统计问题
标注涵盖了胃肠道方面的各种发现、异常、解剖标志和医疗仪器。
使用条款
使用 Kvasir-VQA 数据集时,应包含以下信息以确保遵守数据集的使用条款,特别是在引用数据集的文档或论文中:
@article{Gautam2024Sep, author = {Gautam, Sushant and Stor{aa}s, Andrea and Midoglu, Cise and Hicks, Steven A. and Thambawita, Vajira and Halvorsen, P{aa}l and Riegler, Michael A.}, title = {{Kvasir-VQA: A Text-Image Pair GI Tract Dataset}}, journal = {arXiv}, year = {2024}, month = sep, eprint = {2409.01437}, doi = {10.48550/arXiv.2409.01437} }
@inproceedings{gautam2024kvasirvqa, title={Kvasir-VQA: A Text-Image Pair GI Tract Dataset}, author={Gautam, Sushant and Storås, Andrea and Midoglu, Cise and Hicks, Steven A. and Thambawita, Vajira and Halvorsen, Pål and Riegler, Michael A.}, booktitle={Proceedings of the First International Workshop on Vision-Language Models for Biomedical Applications (VLM4Bio 24)}, year={2024}, location={Melbourne, VIC, Australia}, pages={10 pages}, publisher={ACM}, doi={10.1145/3689096.3689458} }
联系方式
如有任何问题,请联系 michael@simula.no, vajira@simula.no, steven@simula.no 或 paalh@simula.no。

中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录
MeSH
MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。
www.nlm.nih.gov 收录
CWRU bearing fault dataset
CWRU数据集的故障类别被总结为总共十类数据,包括一种正常数据和九种故障数据。该数据集包含两种采样频率的数据,12k Hz和48k Hz,正常数据除外,它只有48k Hz的采样频率。对于这些数据,我们使用12k Hz采样频率的数据。
github 收录
广东省标准地图
该数据类主要为广东省标准地图信息。标准地图依据中国和世界各国国界线画法标准编制而成。该数据包括广东省全图、区域地图、地级市地图、县(市、区)地图、专题地图、红色印迹地图等分类。
开放广东 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录