Perishable: Yucca Needle AMNH 29.0/5346|考古学数据集|文物分析数据集
收藏ChemBL
ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。
www.ebi.ac.uk 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
GTArena
GTArena数据集由浙江大学计算机科学与技术学院开发,旨在为自动化GUI测试提供一个标准化的评估环境。该数据集包含6421条数据,涵盖真实移动应用、人工注入缺陷的应用以及合成数据,数据来源包括开源和闭源应用。数据集构建过程通过定义GUI缺陷的数据结构,并结合部分可观测马尔可夫决策过程(POMDP)模型,系统化地识别和分类GUI缺陷。该数据集主要用于评估多模态大语言模型在GUI测试中的表现,帮助研究人员分析模型在特定场景下的性能差距,并为未来GUI代理的开发提供指导。
arXiv 收录
UniMed
UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。
github 收录