基于TaiSu(太素)的图像描述研究数据集

Name: 基于TaiSu(太素)的图像描述研究数据集
Creator: 中国科学院自动化研究所
License: 暂无描述

国家基础学科公共科学数据中心2026-01-30 收录

下载链接：

https://nbsdc.cn/general/dataDetail?id=67d510e3195d260905af9e27&type=1

下载链接

链接失效反馈

官方服务：

资源简介：

TaiSu(太素)数据集是一个大规模中文视觉语言预训练数据集，由图像及相关中文描述构成，是目前最大的公开中文视觉语言预训练数据集。数据集的构建过程包括数据收集、文本基础过滤、基于图像-文本检索的过滤以及基于图像字幕的文本增强等多个步骤。数据集中的图像和文本通过多种方式采集和生成，其中1.33亿条文本来自网页，0.86亿条文本通过图像描述生成机制生成。数据集在构建过程中注重句子模式的多样性和视觉概念的丰富性，经过处理后，共有1.15亿个不同的句子和超过500万个不同的名词。每张图像都配有相应的中文描述，这些描述通过严格的过滤和增强机制生成，以确保数据的质量和多样性。

提供机构：

中国科学院自动化研究所