DrugBank, TWOSIDES|药物相互作用数据集|数据挖掘数据集
收藏
- 1Benchmarking Graph Learning for Drug-Drug Interaction Prediction清华大学电子工程系 · 2024年
NEPSE Open Data
首个尼泊尔证券交易所(NEPSE)的开源金融数据集,旨在提高尼泊尔资本市场的透明度、学习和创新。
github 收录
Huatuo-26M
Huatuo-26M是由香港中文大学(深圳)创建的大型中文医疗问答数据集,包含2600万个问答对。该数据集通过收集在线医疗咨询网站、医疗百科和医疗知识库的数据构建而成,旨在纪念古代名医华佗。数据集内容涵盖广泛,包括常见疾病、慢性病及复杂疾病等,问答形式贴近实际医疗诊断场景。Huatuo-26M不仅用于医疗研究,还旨在辅助患者和临床医生,通过提供丰富的医疗知识,支持模型在零样本学习和其他医疗问答数据集上的表现,以及作为预训练语料库提升现有预训练语言模型的性能。
arXiv 收录
HRRSD
HRRSD包含21,761张从Google Earth和Baidu Map获取的高分辨率(0.15-m至1.2-m)图像,涵盖55,740个对象实例和13个类别的遥感图像对象。数据集被分为训练、验证和测试三个子集,分别包含5401、5417和10943张图像。此外,还提供了数据集的统计信息和基准测试结果。
github 收录
CelebA
CelebFaces属性数据集 (CelebA) 是一个大型人脸属性数据集,包含200多个名人图像,每个图像有40个属性注释。此数据集中的图像涵盖了较大的姿势变化和背景杂波。CelebA的多样性大,数量大,注释丰富,包括10,177数量的身份,202,599数量的面部图像,以及5个地标位置,每个图像40个二进制属性注释。
OpenDataLab 收录
Chinese Multimodal Depression Corpus (CMDC)
CMDC包含半结构化访谈,旨在支持中国主要抑郁症障碍的筛查和评估。这些访谈作为创建自动AI工具的一部分收集,用于采访人员并识别MDD的视觉、声学和文本指示器。
github 收录