sentence-transformers/coco-captions

Name: sentence-transformers/coco-captions
Creator: sentence-transformers
Published: 2024-04-30 20:05:21
License: 暂无描述

Hugging Face2024-04-30 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/sentence-transformers/coco-captions

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en multilinguality: - monolingual size_categories: - 100K<n<1M task_categories: - feature-extraction - sentence-similarity pretty_name: Coco Captions tags: - sentence-transformers dataset_info: config_name: pair features: - name: caption1 dtype: string - name: caption2 dtype: string splits: - name: train num_bytes: 46793540 num_examples: 414010 download_size: 23935511 dataset_size: 46793540 configs: - config_name: pair data_files: - split: train path: pair/train-* --- # Dataset Card for Coco Captions This dataset is a collection of caption pairs given to the same image, collected from the Coco dataset. See [Coco](https://cocodataset.org/) for additional information. This dataset can be used directly with Sentence Transformers to train embedding models. Note that two captions for the same image do not strictly have the same semantic meaning. ## Dataset Subsets ### `pair` subset * Columns: "caption1", "caption2" * Column types: `str`, `str` * Examples: ```python { 'caption1': 'A clock that blends in with the wall hangs in a bathroom. ', 'caption2': 'A very clean and well decorated empty bathroom', } ``` * Collection strategy: Reading the Coco Captions dataset from [embedding-training-data](https://huggingface.co/datasets/sentence-transformers/embedding-training-data), which has lists of duplicate captions. I've considered all adjacent captions as a positive pair, plus the last and first caption. So, e.g. 5 duplicate captions results in 5 duplicate pairs. * Deduplified: No

language: - 英语 multilinguality: - 单语言 size_categories: - 10万<样本数量<100万 task_categories: - 特征提取 - 句子相似度 pretty_name: Coco Captions（Coco图像描述数据集） tags: - 句子转换器（Sentence Transformers） dataset_info: config_name: pair features: - name: caption1 dtype: 字符串 - name: caption2 dtype: 字符串 splits: - name: 训练集 num_bytes: 46793540 num_examples: 414010 download_size: 23935511 dataset_size: 46793540 configs: - config_name: pair data_files: - split: 训练集 path: pair/train-* # Coco Captions 数据集卡片本数据集是从COCO数据集（Coco dataset）中采集的、针对同一图像的图像描述对集合。更多信息可参阅[COCO官网](https://cocodataset.org/)。本数据集可直接配合句子转换器（Sentence Transformers）用于嵌入模型的训练。需注意：针对同一图像的两条描述未必在语义上完全等价。 ## 数据集子集 ### `pair` 子集 * 列名："caption1"、"caption2" * 列数据类型：均为字符串 * 示例： python { 'caption1': '一款与墙面融为一体的时钟悬挂在浴室中。 ', 'caption2': '一间整洁雅致且空置的浴室', } * 采集策略：从[embedding-training-data](https://huggingface.co/datasets/sentence-transformers/embedding-training-data)的COCO图像描述数据集中读取，该数据集包含重复的描述列表。我们将所有相邻的描述视为正样本对，同时包含首尾两条描述。例如，若有5条重复描述，则会生成5组描述对。 * 去重处理：未进行去重

提供机构：

sentence-transformers

原始信息汇总

数据集概述

基本信息

名称: Coco Captions
语言: 英语
多语言性: 单语种
大小: 100K<n<1M
任务类别: 特征提取, 句子相似度
标签: sentence-transformers

数据集配置

配置名称: pair
特征:
- caption1: 字符串类型
- caption2: 字符串类型

数据分割

训练集:
- 字节数: 46793540
- 示例数: 414010

下载与数据集大小

下载大小: 23935511
数据集大小: 46793540

数据集子集

子集名称: pair
- 列: "caption1", "caption2"
- 列类型: 字符串, 字符串
- 示例: 包含两个描述同一图像的不同字幕
- 收集策略: 从embedding-training-data读取Coco Captions数据集，考虑所有相邻字幕作为正对，包括最后一个和第一个字幕。
- 去重: 否

搜集汇总

数据集介绍

构建方式

在计算机视觉与自然语言处理的交叉领域，COCO数据集为图像描述任务提供了丰富的标注资源。本数据集基于COCO Captions构建，通过读取sentence-transformers/embedding-training-data中存储的重复描述列表，将同一图像对应的相邻描述视为正样本对，并特别处理首尾描述以形成闭环，从而系统性地生成了大量描述对。这种构建方式旨在捕捉同一视觉内容下不同语言表达的细微差异，为模型训练提供了结构化的语义对比数据。

使用方法

该数据集主要用于训练句子嵌入模型，以提升模型在语义相似性计算和特征提取任务上的性能。使用者可以直接通过Sentence Transformers库加载并利用该数据集进行对比学习或三元组损失训练。在训练过程中，模型被鼓励将同一图像的不同描述映射到嵌入空间中相近的位置，同时拉大不同图像描述之间的距离。这种使用方法能够有效增强模型对文本语义细微差别的感知能力，适用于信息检索、文本聚类等多种下游应用场景。

背景与挑战

背景概述

在计算机视觉与自然语言处理的交叉领域，图像描述生成任务旨在让机器理解视觉内容并用自然语言进行表达。COCO-Captions数据集作为这一领域的重要资源，由微软团队于2015年基于大规模视觉识别挑战赛（COCO）构建，其核心研究问题聚焦于提升图像与文本之间的语义对齐能力。该数据集通过为每幅图像提供多个人工标注的描述，推动了视觉-语言模型的发展，对图像检索、跨模态理解等研究方向产生了深远影响。

当前挑战

COCO-Captions数据集所解决的核心领域问题是图像描述生成与跨模态语义相似性计算，其挑战在于如何准确衡量不同文本描述对同一图像的表征一致性，以及处理描述中存在的细微语义差异。在构建过程中，数据集面临标注主观性带来的描述多样性挑战，例如不同标注者对同一场景的表述可能侧重不同细节；同时，从原始COCO数据中提取并配对描述时，需谨慎处理相邻描述的逻辑关联性，避免引入噪声或错误的正样本对，这对训练可靠的句子嵌入模型构成了关键考验。

常用场景

经典使用场景

在自然语言处理领域，图像描述生成任务常需评估文本语义的相似性。sentence-transformers/coco-captions数据集通过提供同一图像下的多组描述对，为训练句子嵌入模型奠定了数据基础。该数据集的核心应用场景在于训练和优化基于Transformer架构的语义相似度计算模型，使模型能够从非严格同义的描述对中学习到细粒度的语义表示，进而提升跨模态对齐任务的性能。

解决学术问题

该数据集主要针对语义相似度计算和句子嵌入学习中的关键挑战，即如何从非完全一致的描述中捕获深层语义关联。它解决了传统方法在训练数据稀缺或语义噪声较大时性能受限的问题，为研究社区提供了大规模、高质量的标注对，助力于开发更鲁棒的嵌入模型，推动跨模态理解与生成领域的基础理论进展。

实际应用

在实际应用中，该数据集支撑了智能图像检索、自动字幕生成以及多模态内容推荐系统的开发。通过训练出的嵌入模型，系统能够更精准地匹配用户查询与图像内容，提升搜索引擎的准确性；同时，在辅助视觉障碍人士理解图像内容、增强社交媒体平台的自动化标注功能等方面，也展现出广泛的应用潜力。

数据集最近研究