有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
CACD
跨年龄名人数据集是用于跨年龄人脸识别和检索的数据集。它包含 2,000 位名人的 163,446 张图像。该数据集于 2014 年由马里兰大学计算机科学系发表,论文名为 cross-age Reference Coding for Age-invariant Face Recognition and Retrieval。
OpenDataLab 收录
UniMed
UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。
github 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
CCNC
CCNC是一个包含365万姓名样本的大型中文姓名语料库,数据来源于姓名大全和中文人名语料库,经过处理和注音,用于中文姓名研究和实体识别。
github 收录
SPIQA
SPIQA数据集由谷歌研究院和约翰斯·霍普金斯大学共同创建,是首个针对科学研究论文中复杂图表和表格进行多模态问答的大规模数据集。该数据集包含270,194个问题,涉及计算机科学多个领域的研究论文。数据集的创建过程结合了自动和手动筛选,确保了数据的质量和多样性。SPIQA数据集主要用于评估多模态大型语言模型在理解科学论文中的图表和表格方面的能力,旨在提高信息检索和问答系统的性能。
arXiv 收录