DanQing
收藏github2026-01-14 更新2026-01-15 收录
下载链接:
https://github.com/deepglint/DanQing
下载链接
链接失效反馈官方服务:
资源简介:
DanQing是一个最新的大规模中文视觉-语言预训练数据集,包含1亿个中文图像-文本对,数据量达12TB,主要基于2024-2025年的网络数据。
DanQing is a state-of-the-art large-scale Chinese vision-language pre-training dataset, which contains 100 million Chinese image-text pairs with a total data volume of 12 TB, and is primarily based on web data from 2024 to 2025.
创建时间:
2026-01-05
原始信息汇总
DanQing 数据集概述
数据集基本信息
- 数据集名称: DanQing
- 核心内容: 一个包含1亿个中文图文对的大规模视觉语言预训练数据集。
- 数据规模: 100M 图文对,总计约12TB。
- 数据来源: 从Common Crawl收集的2024-2025年网络数据。
- 数据特点: 通过更严格的筛选流程构建,数据质量更高,能更好地捕捉语义趋势演变。
数据访问与下载
- Hugging Face: 提供图像URL和描述文本(含合成描述)。完整数据集需从ModelScope下载。
- 地址: https://huggingface.co/datasets/DeepGlint-AI/DanQing100M
- ModelScope: 提供完整的图像和描述数据集。
- 地址: https://www.modelscope.cn/datasets/deepglint/DanQing
- 合成描述: 数据集中的
recaption列提供了使用GLM4.1-base-9B生成的合成描述,以增强文本元数据的语义丰富度和细节。
数据集评估与分析
- 主题评估: 基于BERTopic对1000万图文对进行主题建模,使用Chinese-CLIP-L/14提取文本嵌入,UMAP降维,HDBSCAN聚类。
- 图像分辨率与文本长度: 分析了图像的宽度、高度和最小维度分辨率分布。文本长度基于22亿中文词进行分析。
- 文本质量: 使用语义词密度和困惑度指标评估,并与Wukong、Zero数据集进行对比。
- 余弦相似性与语义分布: 使用FG-CLIP2-L/16@256分析图像-文本相似性分布,使用FAISS对图像进行聚类以比较语义分布。
性能对比
基于SigLIP2模型的持续预训练实验,DanQing在多项中文下游任务中表现优异:
- 零样本分类
- 跨模态检索(短描述和长描述)
- 以中文为中心的大型多模态模型任务
分析与扩展性
- 数据与模型扩展: 对比了DanQing和Wukong在数据和模型扩展能力上的表现。
- 新概念理解: 评估了在不同中文数据集上预训练的SigLIP2-L/16模型对新概念的理解能力,DanQing训练的模型对正确图文对给出最高置信度。
使用许可
- 许可证: CC-BY-4.0 License。
- 声明: 数据集收集自Common Crawl网页,可能包含有偏见或敏感内容。用户需自行确保其研究或应用符合伦理和法律标准。
引用
- 引用信息待公布。
搜集汇总
数据集介绍

构建方式
在视觉语言预训练领域,大规模高质量数据集的构建是推动模型性能提升的关键。DanQing数据集通过从Common Crawl中系统性地采集2024年至2025年的网络数据,精心筛选出1亿对中文图文对,总规模达到12TB。其构建过程采用了更为严格的筛选流程,不仅确保了数据的时效性,还通过先进的质量评估指标优化了图文对的语义对齐与内容多样性,为模型训练提供了坚实的数据基础。
特点
DanQing数据集展现出多方面的显著特点,其数据主要来源于近两年的网络内容,能够有效捕捉语义趋势的演变,增强模型在实际应用中的适应性。该数据集在文本质量上表现出色,通过语义词密度和困惑度等指标验证,其内容具有较高的信息密度与语言流畅性。此外,数据集覆盖广泛的图像分辨率与文本长度分布,并利用主题建模揭示了丰富的语义结构,为跨模态理解任务提供了全面而细致的资源支持。
使用方法
为便于研究社区的使用,DanQing数据集提供了灵活的访问方式。用户可通过Hugging Face平台获取包含图像URL与文本描述的元数据,或直接通过ModelScope下载完整的图文对数据。数据集支持Python API与命令行工具进行加载与处理,例如利用datasets或modelscope库进行集成,并可结合img2dataset等工具高效下载与转换图像数据。这种设计使得研究人员能够便捷地将其应用于视觉语言模型的预训练、零样本分类及跨模态检索等多种下游任务中。
背景与挑战
背景概述
在视觉-语言预训练领域,大规模、高质量的中文图文对数据集对于推动多模态人工智能的发展至关重要。DanQing数据集由DeepGlint-AI团队于2024至2025年间构建,核心研究人员包括Hengyu Shen、Tiancheng Gu、Kaicheng Yang等。该数据集从Common Crawl中精心筛选出1亿对图文数据,总量达12TB,旨在解决现有中文多模态数据集在时效性、数据质量与规模上的局限。其核心研究问题聚焦于如何利用最新网络数据,捕捉动态演进的语义趋势,以增强模型对中文语境下视觉与语言关联的理解能力。通过在SigLIP2等模型上的持续预训练实验,DanQing在零样本分类、跨模态检索及大型多模态模型任务中均展现出卓越性能,为中文为中心的视觉-语言研究提供了强有力的数据支撑。
当前挑战
在视觉-语言预训练任务中,构建高质量中文数据集面临双重挑战。领域层面,中文图文对需精准对齐视觉内容与复杂语义,涵盖多样文化语境与新涌现的网络概念,这对模型的零样本泛化与跨模态检索能力提出了更高要求。构建过程中,从海量网络数据中筛选出1亿对高质量图文面临巨大挑战,涉及噪声过滤、版权合规性以及数据偏见控制。此外,确保数据时效性以反映2024至2025年的语义趋势,同时维持12TB规模下的存储与分发效率,需克服工程与资源上的诸多障碍。
常用场景
经典使用场景
在视觉-语言预训练领域,DanQing数据集作为一项大规模中文图文对资源,其经典应用场景在于支撑多模态基础模型的训练与优化。该数据集通过包含一亿对高质量图像与文本,为研究人员提供了丰富的跨模态对齐素材,使得模型能够深入理解中文语境下的视觉语义关联。在具体实践中,DanQing常被用于训练如SigLIP2等先进模型,以提升其在零样本分类、跨模态检索等任务上的性能,从而推动中文多模态智能系统的演进。
实际应用
在实际应用层面,DanQing数据集为构建高效的中文多模态智能系统提供了关键支撑。基于该数据集训练的模型可广泛应用于搜索引擎的图像检索优化、电子商务平台的智能商品推荐、以及内容审核中的图文一致性验证等场景。其涵盖2024至2025年的网络数据,确保了模型对当下流行文化、新兴事物及社会趋势的敏锐感知,从而在社交媒体分析、教育辅助工具及自动化内容生成等领域展现出显著的实用价值。
衍生相关工作
围绕DanQing数据集,学术界已衍生出一系列经典研究工作,特别是在中文多模态模型架构与评估基准的构建方面。例如,基于DanQing进行持续预训练的SigLIP2模型在多项下游任务中展现了优越性能,为后续模型如Chinese-CLIP的改进提供了重要参考。同时,该数据集也催生了针对中文特定场景的跨模态检索基准与零样本分类评测体系,进一步推动了中文视觉-语言理解领域的标准化与创新探索。
以上内容由遇见数据集搜集并总结生成



