TaiSu|视觉语言预训练数据集|中文数据集数据集
收藏数据集概述
名称: TaiSu(太素--亿级大规模中文视觉语言预训练数据集) 规模: 166M 用途: 中文视觉语言预训练 论文: 已被NeurIPS 2022接受
数据集构建
- 数据收集
- 文本基础过滤
- 基于图像-文本检索的过滤
- 基于图像字幕的文本增强
数据集下载
- 下载方式: 通过电子邮件联系datasets_2022@outlook.com,需在邮件中注明组织信息。
- 文件格式: 图像被分割成超过30个部分,字幕集合于一个TXT文件中。
- 文件处理: 使用命令行
pigz -d baidu_images*.tgz
解压缩.tgz
文件至.tar
格式。
预训练模型
- 可用性: 提供基于TaiSu网络数据和完整数据的预训练模型。
- 下载链接: https://pan.baidu.com/s/1d3UKyQi7J4Qr1XE2j2V8og?pwd=0kjm
许可证
- 使用条款: 遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International Public License(CC BY-NC-SA 4.0)。
- 限制: 仅限非商业用途,如学术研究、教学或科学出版。
联系方式
- 电子邮件: datasets_2022@outlook.com
- 组织: Institute of Automation, Chinese Academy of Sciences (CASIA), Beijing, China
引用信息
@inproceedings{liu2022taisu, author = {Liu, Yulong and Zhu, Guibo and Zhu, Bin and Song, Qi and Ge, Guojing and Chen, Haoran and Qiao, GuanHui and Peng, Ru and Wu, Lingxiang and Wang, Jinqiao}, booktitle = {Advances in Neural Information Processing Systems}, editor = {S. Koyejo and S. Mohamed and A. Agarwal and D. Belgrave and K. Cho and A. Oh}, pages = {16705--16717}, publisher = {Curran Associates, Inc.}, title = {TaiSu: A 166M Large-scale High-Quality Dataset for Chinese Vision-Language Pre-training}, url = {https://proceedings.neurips.cc/paper_files/paper/2022/file/6a386d703b50f1cf1f61ab02a15967bb-Paper-Datasets_and_Benchmarks.pdf}, volume = {35}, year = {2022} }

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
DALY
DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。
ghdx.healthdata.org 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
YOLO-dataset
该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。
github 收录