mauro-nievoff/MultiCaRe_Dataset|医学数据数据集|多模态数据分析数据集
收藏MultiCaRe Dataset 概述
数据集信息
- 许可证: cc-by-4.0
- 任务类别:
- 图像分类
- 图像到文本
- 文本到图像
- 语言: 英语
- 标签:
- 医学
- 图像
- 计算机视觉
- 多模态
- 文本
- 临床
- 自然语言处理
- 数据集名称: MultiCaRe Dataset
数据内容
- 数据来源: 包含来自超过75,000份开放访问和去标识化的病例报告的多模态数据。
- 数据类型: 包括元数据、临床病例、图像说明和超过130,000张图像。
- 医学专业: 图像和临床病例涉及不同的医学专业,如肿瘤学、心脏病学、外科和病理学。
- 数据结构: 数据集结构允许轻松映射图像与其相应的文章元数据、临床病例、说明和图像标签。详细的数据结构可在
data_dictionary.csv
文件中找到。
数据贡献
- 患者和研究人员: 近100,000名患者和近400,000名医学医生和研究人员参与了该数据集中包含的文章的创建。
- 引用数据: 每篇文章的引用数据可在
metadata.parquet
文件中找到。
参考资料
- 使用示例: 参考GitHub仓库中的示例,了解如何优化使用该数据集。
- 详细内容: 关于数据集内容的详细见解,请参阅Data In Brief上发表的数据文章。
- 数据集可用性: 该数据集也可在Zenodo上获取。

广东省标准地图
该数据类主要为广东省标准地图信息。标准地图依据中国和世界各国国界线画法标准编制而成。该数据包括广东省全图、区域地图、地级市地图、县(市、区)地图、专题地图、红色印迹地图等分类。
开放广东 收录
suno
该数据集包含由人工智能生成的659,788首歌曲的元数据,这些歌曲由suno.com平台生成。数据集是多语言的,主要语言为英语,但也包含日语和其他语言的歌词和标题。每个歌曲的元数据包括唯一标识符、视频和音频URL、封面图像URL、AI模型版本、生成状态、创作者信息等。数据集根据CC0许可证公开,允许任何用途的使用、修改和分发。
huggingface 收录
GEO (Gene Expression Omnibus)
GEO (Gene Expression Omnibus) is a public functional genomics data repository supporting MIAME-compliant data submissions. There are also tools provided to help users query and download experiments and curated gene expression profiles.
OPEN DATA NETWORK 收录
UniMed
UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。
github 收录
CACD
跨年龄名人数据集是用于跨年龄人脸识别和检索的数据集。它包含 2,000 位名人的 163,446 张图像。该数据集于 2014 年由马里兰大学计算机科学系发表,论文名为 cross-age Reference Coding for Age-invariant Face Recognition and Retrieval。
OpenDataLab 收录