five

BoKelvin/SLAKE|医学视觉问答数据集|语义标注数据集

收藏
hugging_face2024-02-28 更新2024-03-04 收录
医学视觉问答
语义标注
下载链接:
https://hf-mirror.com/datasets/BoKelvin/SLAKE
下载链接
链接失效反馈
资源简介:
SLAKE是一个语义标记知识增强的医学视觉问答数据集,支持中英文,旨在通过提供丰富的语义标签和知识增强信息,帮助提升医学领域的视觉问答系统的性能。该数据集在ISBI 2021会议上作为口头报告提出,并已在Huggingface仓库中进行了文件名标准化修改。

SLAKE is a semantically-labeled knowledge-enhanced dataset for medical visual question answering, supporting both English and Chinese. It aims to improve the performance of visual question answering systems in the medical field by providing rich semantic labels and knowledge-enhanced information. The dataset was presented as an oral report at ISBI 2021 and has undergone filename standardization modifications in the Huggingface repository.
提供机构:
BoKelvin
原始信息汇总

数据集信息

数据集名称

SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical Visual Question Answering

发布会议

ISBI 2021 oral

任务类别

  • visual-question-answering

语言

  • 英语 (en)
  • 中文 (zh)

标签

  • 医疗 (medical)

许可证

cc-by-4.0

修改说明

在Huggingface Repo中,将文件名validate.json更改为validation.json,以便在Dataset Card中更好地显示。

AI搜集汇总
数据集介绍
main_image_url
构建方式
在医学视觉问答领域,BoKelvin/SLAKE数据集的构建采用了语义标注与知识增强的策略。该数据集通过集成医学图像与相应的语义信息,构建了一个包含细粒度标注的问答对集合,旨在提升模型在理解医学图像并进行精准问答的能力。
特点
SLAKE数据集的特点在于其深度整合了医学领域的知识库,使得数据集中的每一个问答对都具备了丰富的语义信息。此外,该数据集支持中英双语,提供了视觉问答任务所需的多维度信息,有利于模型的跨语言学习和应用。
使用方法
使用SLAKE数据集时,用户可以依据数据集提供的语义标签和知识增强信息,进行视觉问答模型的训练和评估。数据集中的___validation.json___文件用于模型的验证,用户可以通过Huggingface提供的平台方便地加载和利用这些数据进行相关研究。
背景与挑战
背景概述
在医学视觉问题解答领域,数据集的构建一直是研究的热点与难点。SLAKE数据集,由Bo Liu与Xiao-Ming Wu等研究人员于2021年推出,旨在为医学视觉问题解答提供语义标注与知识增强的数据集。该数据集结合了医学领域的专业知识和计算机视觉技术,通过提供具有挑战性的视觉问题及其答案,对促进医学图像分析、自然语言处理等领域的发展具有重要意义。
当前挑战
SLAKE数据集面临的挑战主要在于两个方面:一是医学视觉问题解答本身具有高度的专业性和复杂性,如何确保数据集在涵盖广泛医学知识的同时,保持问题的准确性和合理性;二是构建过程中,如何实现知识增强,即在数据集中融入丰富的医学知识,提升数据集的实用性和研究价值。此外,数据集的构建还需克服标注一致性、数据隐私保护等实际问题。
常用场景
经典使用场景
在医学视觉问题回答的领域中,SLAKE数据集以其丰富的语义标签和知识增强特性,成为研究者的首选。该数据集通过结合图像和文本信息,为构建医学视觉问答系统提供了坚实的基础,使得研究者能够训练模型准确理解医学图像内容并回答相关问题。
衍生相关工作
基于SLAKE数据集,研究者们开展了一系列相关工作,如开发更为高效的医学视觉问答模型、构建集成知识库的问答系统等。这些工作进一步扩展了SLAKE数据集的应用范围,推动了医学人工智能领域的发展。
数据集最近研究
最新研究方向
在医学视觉问题回答的领域中,SLAKE数据集以其语义化标签和知识增强特性成为研究的热点。近期研究集中于如何利用该数据集提升视觉问答系统的准确度和理解能力,特别是在处理医疗影像和相关信息时。SLAKE数据集的发布,促进了医学影像解析与自然语言处理技术的融合,为临床决策支持和医学教育等领域带来了深远影响。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

LEVIR-CD

LEVIR-CD 是一个新的大规模遥感建筑变化检测数据集。引入的数据集将成为评估变化检测 (CD) 算法的新基准,尤其是基于深度学习的算法。 LEVIR-CD 由 637 个非常高分辨率(VHR,0.5m/像素)Google Earth (GE) 图像块对组成,大小为 1024 × 1024 像素。这些时间跨度为 5 到 14 年的双时相图像具有显着的土地利用变化,尤其是建筑增长。 LEVIR-CD涵盖别墅住宅、高层公寓、小型车库和大型仓库等各类建筑。在这里,我们关注与建筑相关的变化,包括建筑增长(从土壤/草地/硬化地面或在建建筑到新建筑区域的变化)和建筑衰退。这些双时相图像由遥感图像解释专家使用二进制标签(1 表示变化,0 表示不变)进行注释。我们数据集中的每个样本都由一个注释器进行注释,然后由另一个注释器进行双重检查以产生高质量的注释。完整注释的 LEVIR-CD 总共包含 31,333 个单独的变更构建实例。

OpenDataLab 收录

中文突发事件语料库

中文突发事件语料库是由上海大学(语义智能实验室)所构建,根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中,CEC合计332篇。

github 收录

WorldClim

WorldClim是一个全球气候数据集,提供了全球范围内的气候数据,包括温度、降水、生物气候变量等。数据集的分辨率从30秒到10分钟不等,适用于各种尺度的气候分析和建模。

www.worldclim.org 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录