基于TaiSu(太素)的图像描述研究数据集
收藏国家基础学科公共科学数据中心2026-01-30 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=67d510e3195d260905af9e27&type=1
下载链接
链接失效反馈官方服务:
资源简介:
TaiSu(太素)数据集是一个大规模中文视觉语言预训练数据集,由图像及相关中文描述构成,是目前最大的公开中文视觉语言预训练数据集。数据集的构建过程包括数据收集、文本基础过滤、基于图像-文本检索的过滤以及基于图像字幕的文本增强等多个步骤。数据集中的图像和文本通过多种方式采集和生成,其中1.33亿条文本来自网页,0.86亿条文本通过图像描述生成机制生成。数据集在构建过程中注重句子模式的多样性和视觉概念的丰富性,经过处理后,共有1.15亿个不同的句子和超过500万个不同的名词。 每张图像都配有相应的中文描述,这些描述通过严格的过滤和增强机制生成,以确保数据的质量和多样性。
提供机构:
中国科学院自动化研究所



