Dog100K

github2025-06-05 更新2025-06-24 收录

下载链接：

https://github.com/choucisan/Dogretrieval

下载链接

链接失效反馈

官方服务：

资源简介：

我们构建了一个高质量的大规模狗狗图文数据集（全网最大）Dog100K，包含超过10万对图像与文本对。数据来源包括Tsinghua Dogs Dataset、Stanford Dogs Dataset以及网络爬取和人工清洗数据。每条数据包括一张高清狗狗图像和对应的文本描述（外貌特征等）。

We have constructed a high-quality large-scale dog image-text dataset named Dog100K, which is the largest publicly available dataset of this kind across the internet. It contains over 100,000 image-text pairs. The dataset is sourced from the Tsinghua Dogs Dataset, Stanford Dogs Dataset, as well as web-crawled and manually curated data. Each sample includes a high-definition dog image and its corresponding text description covering appearance features and other relevant details.

创建时间：

2025-05-31

原始信息汇总

Dog100K 数据集概述

数据集基本信息

名称：Dog100K
规模：超过10万对图像与文本对
数据来源：
- Tsinghua Dogs Dataset
- Stanford Dogs Dataset
- 网络爬取数据（经人工清洗）

数据内容

图像：高清狗狗图像
文本：对应的狗狗外貌特征等描述

数据集特点

多模态：包含图像与文本配对数据
高质量：经过人工清洗
大规模：号称全网最大狗狗图文数据集

数据集应用

检索任务：
- 图像→图像
- 图像→文本
- 文本→文本
- 文本→图像
生成任务：
- 文本→图片生成
- 文本→视频生成
- 图像→视频生成
推理与对话：
- 自然语言问答
- 品种识别
- 饲养建议

技术探索

CLIP微调策略：
- 冻结参数微调
- LoRA（Low-Rank Adaptation）
评估指标：
- 相似度得分
- Recall@1
- Recall@5
- MRR

获取方式

下载地址：https://pan.quark.cn/s/847c986bb883
存储要求：
- 图像路径：DogUI/static/data
- 文本路径：DogUI/static/captions.csv

搜集汇总

数据集介绍

构建方式

Dog100K数据集的构建融合了多源数据整合与精细化处理流程，通过整合Tsinghua Dogs Dataset和Stanford Dogs Dataset两大权威犬类数据集，结合网络爬取技术获取原始素材。为确保数据质量，研究团队采用人工清洗机制对图像和文本描述进行双重校验，最终形成超过10万对高质量的图像-文本匹配数据。每条数据单元包含高清犬类图像及对应的结构化文本描述，涵盖外貌特征等关键信息维度。

特点

作为当前规模最大的犬类多模态数据集，Dog100K展现出显著的跨模态特性与专业标注优势。其图像数据覆盖不同品种、姿态及场景下的犬只样本，文本描述采用标准化特征标注体系，支持细粒度的跨模态检索任务。数据集特别强化了图像与文本的语义对齐质量，通过人工校验确保描述准确性，为视觉-语言联合建模提供了理想的基准测试平台。数据分布的多样性和标注的精确性使其在犬种识别、跨模态检索等任务中具有突出的应用价值。

使用方法

使用该数据集需通过指定链接下载完整数据包，按照目录结构要求将图像数据置于DogUI/static路径下，并配置对应的描述文件路径。为提升检索效率，建议预先运行encode_image.py脚本生成图像与文本的嵌入表示。数据集支持端到端的多模态应用开发，开发者可通过修改API_URL等参数对接不同的预训练模型。运行app.py后访问本地端口即可体验完整的检索系统，该系统支持图像/文本双输入模式，实现跨模态的相似度计算与内容生成功能。

背景与挑战

背景概述

Dog100K数据集是由Dogretrieval项目团队构建的大规模狗狗图文数据集，旨在推动多模态内容理解与生成的研究。该数据集整合了Tsinghua Dogs Dataset、Stanford Dogs Dataset以及经过人工清洗的网络爬取数据，包含超过10万对高质量的图像与文本描述对。作为目前全网规模最大的狗狗多模态数据集，Dog100K为计算机视觉与自然语言处理的交叉研究提供了重要资源。数据集的设计理念体现了'理解与关爱并重'的宗旨，通过AI技术促进人类对狗狗的认知与关怀。项目团队采用了先进的CLIP模型微调策略，包括冻结参数微调和LoRA方法，显著提升了图文匹配性能。

当前挑战

在解决狗狗图像与文本多模态匹配这一核心问题上，Dog100K面临着细粒度视觉特征识别与语义对齐的双重挑战。不同犬种在外观上的细微差异要求模型具备强大的特征提取能力，而多样化的文本描述方式则对跨模态理解提出了更高要求。数据构建过程中，团队需要克服网络爬取数据的噪声问题，确保图像质量与文本描述的准确性。此外，数据标注的一致性与完整性也是重要挑战，特别是对于稀有犬种样本的覆盖。在模型层面，如何平衡CLIP等预训练模型的微调深度与计算效率，以及处理长尾分布带来的偏差问题，都是需要解决的技术难点。

常用场景

经典使用场景

在计算机视觉与多模态学习领域，Dog100K数据集为研究者提供了一个丰富的狗狗图像与文本配对资源。该数据集最经典的使用场景在于训练和评估跨模态检索模型，例如图像到文本或文本到图像的检索任务。通过大规模高质量的标注数据，研究者能够探索视觉与语言之间的复杂关联，提升模型在细粒度分类和语义理解上的性能。

解决学术问题

Dog100K数据集有效解决了多模态学习中数据稀缺与标注质量不高的学术难题。其涵盖的10万对图像文本对为细粒度视觉分类、跨模态对齐和语义嵌入等研究提供了坚实基础。该数据集尤其推动了基于CLIP架构的模型优化，例如通过LoRA等参数高效微调方法，显著提升了图文匹配的准确性与泛化能力。

衍生相关工作

围绕Dog100K数据集，学术界衍生了一系列经典工作，包括基于CLIP架构的轻量化微调策略（如LoRA）、自监督跨模态表示学习框架，以及结合GLM-4的图文对话系统。这些研究不仅提升了狗狗图像的语义理解精度，也为通用多模态模型的领域适配提供了方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集