TaiSu|视觉语言预训练数据集|中文数据集数据集

github2023-11-17 更新2024-05-31 收录

视觉语言预训练

中文数据集

下载链接：

https://github.com/ksOAn6g5/TaiSu

下载链接

链接失效反馈

资源简介：

TaiSu是一个包含1.66亿条数据的大规模高质量中文视觉语言预训练数据集，用于支持中文视觉语言预训练研究。

TaiSu is a large-scale, high-quality Chinese visual-language pre-training dataset comprising 166 million entries, designed to support research in Chinese visual-language pre-training.

创建时间：

2022-06-13

原始信息汇总

数据集概述

名称: TaiSu（太素--亿级大规模中文视觉语言预训练数据集）规模: 166M 用途: 中文视觉语言预训练论文: 已被NeurIPS 2022接受

数据集构建

数据收集
文本基础过滤
基于图像-文本检索的过滤
基于图像字幕的文本增强

数据集下载

下载方式: 通过电子邮件联系datasets_2022@outlook.com，需在邮件中注明组织信息。
文件格式: 图像被分割成超过30个部分，字幕集合于一个TXT文件中。
文件处理: 使用命令行pigz -d baidu_images*.tgz解压缩.tgz文件至.tar格式。

预训练模型

可用性: 提供基于TaiSu网络数据和完整数据的预训练模型。
下载链接: https://pan.baidu.com/s/1d3UKyQi7J4Qr1XE2j2V8og?pwd=0kjm

许可证

使用条款: 遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International Public License（CC BY-NC-SA 4.0）。
限制: 仅限非商业用途，如学术研究、教学或科学出版。

联系方式

电子邮件: datasets_2022@outlook.com
组织: Institute of Automation, Chinese Academy of Sciences (CASIA), Beijing, China

引用信息

@inproceedings{liu2022taisu, author = {Liu, Yulong and Zhu, Guibo and Zhu, Bin and Song, Qi and Ge, Guojing and Chen, Haoran and Qiao, GuanHui and Peng, Ru and Wu, Lingxiang and Wang, Jinqiao}, booktitle = {Advances in Neural Information Processing Systems}, editor = {S. Koyejo and S. Mohamed and A. Agarwal and D. Belgrave and K. Cho and A. Oh}, pages = {16705--16717}, publisher = {Curran Associates, Inc.}, title = {TaiSu: A 166M Large-scale High-Quality Dataset for Chinese Vision-Language Pre-training}, url = {https://proceedings.neurips.cc/paper_files/paper/2022/file/6a386d703b50f1cf1f61ab02a15967bb-Paper-Datasets_and_Benchmarks.pdf}, volume = {35}, year = {2022} }

AI搜集汇总

数据集介绍

构建方式

TaiSu数据集的构建过程经过精心设计，以确保其高质量和广泛适用性。首先，通过数据收集阶段，从多个来源获取原始图像和文本数据。随后，采用基于文本的过滤方法，剔除不符合标准的内容。接着，通过图像-文本检索技术进一步筛选，确保图像与文本的高度相关性。最后，利用图像描述生成技术对文本进行增强，以丰富数据集的语义信息。这一系列步骤确保了数据集的多样性和准确性。

特点

TaiSu数据集以其大规模和高品质著称，包含1.66亿条中文视觉语言数据。其独特之处在于，不仅提供了原始图像和对应的文本描述，还通过文本增强技术生成了额外的描述，进一步丰富了数据的语义层次。此外，数据集的图像和文本经过严格筛选，确保了高质量的内容。每个图像与其对应的文本描述通过唯一ID精确匹配，便于用户进行高效的数据检索和分析。

使用方法

使用TaiSu数据集时，用户首先需要通过电子邮件申请获取数据。数据集被分割为多个压缩文件，用户需使用命令行工具进行解压。解压后，图像和文本描述可通过唯一ID进行匹配。数据集还提供了预训练模型，用户可通过API接口调用模型进行图像和文本的编码。编码后的特征向量可用于计算余弦相似度，支持多种视觉语言任务，如图像检索和文本生成。使用过程中需遵守CC BY-NC-SA 4.0许可协议，确保仅用于非商业用途。

背景与挑战

背景概述

TaiSu数据集是由中国科学院自动化研究所的研究团队于2022年推出的一个大规模中文视觉语言预训练数据集，旨在推动中文视觉语言理解领域的研究。该数据集包含1.66亿个高质量的图像-文本对，涵盖了广泛的中文语境和视觉内容。其核心研究问题在于如何通过大规模数据预训练提升模型在中文视觉语言任务中的表现，如图像-文本检索、图像描述生成等。该数据集的发布为中文视觉语言预训练模型的发展提供了重要支持，并在NeurIPS 2022会议上得到了广泛认可。

当前挑战

TaiSu数据集在构建过程中面临了多重挑战。首先，数据收集阶段需要从互联网上获取海量的图像和文本对，并确保其多样性和代表性。其次，数据质量的控制是一个关键问题，研究团队通过文本过滤、图像-文本检索过滤以及基于图像描述的文本增强等方法，确保数据的高质量。此外，由于部分原始数据的URL失效，数据集在发布时不得不直接提供图像和文本文件，这增加了数据存储和分发的复杂性。最后，数据集的非商业使用许可限制了其在商业场景中的应用，这也为数据集的广泛推广带来了一定的挑战。

常用场景

经典使用场景

TaiSu数据集在视觉-语言预训练领域具有广泛的应用，尤其在中文语境下的多模态学习任务中表现突出。该数据集通过大规模高质量的中文图像-文本对，支持了从图像描述生成到文本-图像检索等多种任务的研究。其丰富的标注数据和多样化的内容为模型提供了强大的训练基础，使得研究人员能够深入探索视觉与语言之间的复杂关系。

实际应用

在实际应用中，TaiSu数据集为智能客服、图像搜索、内容推荐等场景提供了强大的支持。例如，在电商平台中，基于该数据集训练的模型能够更准确地理解用户上传的图片并生成相关描述，从而提升用户体验。此外，该数据集还可用于教育领域，辅助开发智能教学工具，帮助学生更好地理解图像与文本的关联。

衍生相关工作

TaiSu数据集的发布催生了一系列相关研究工作，特别是在中文视觉-语言预训练模型的优化和应用方面。例如，基于该数据集的研究提出了多种改进的预训练方法，如多任务学习和跨模态注意力机制。这些工作不仅提升了模型的性能，还为其他多模态任务提供了新的思路和方法，推动了该领域的进一步发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Google Scholar

Google Scholar是一个学术搜索引擎，旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域，包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

DALY

DALY数据集包含了全球疾病负担研究（Global Burden of Disease Study）中的伤残调整生命年（Disability-Adjusted Life Years, DALYs）数据。该数据集提供了不同国家和地区在不同年份的DALYs指标，用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

TCIA

TCIA（The Cancer Imaging Archive）是一个公开的癌症影像数据集，包含多种癌症类型的医学影像数据，如CT、MRI、PET等。这些数据通常与临床和病理信息相结合，用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

YOLO-dataset

该数据集用于训练YOLO模型，包括分类、检测和姿态识别模型。目前支持v8版本，未来计划支持更多版本。

github 收录