coco-2017-vietnamese

Hugging Face2026-01-07 更新2026-01-08 收录

下载链接：

https://huggingface.co/datasets/ai-enthusiasm-community/coco-2017-vietnamese

下载链接

链接失效反馈

官方服务：

资源简介：

COCO-2017-Vietnamese是Microsoft Common Objects in Context (COCO) 2017数据集的越南语本地化版本，这是一个大规模的对象检测、分割和描述数据集。该版本专门为越南跨模态研究设计，包含原始英文标题和高质量的越南语翻译。它是在双语框架下进行图像描述和多模态学习等任务的综合基准。

创建时间：

2026-01-06

原始信息汇总

COCO-2017-Vietnamese 数据集概述

基本信息

数据集名称: COCO-2017-Vietnamese
维护团队: AI Enthusiasm
官方主页: https://aienthusiasm.vn
Hugging Face组织: https://huggingface.co/ai-enthusiasm-community
语言: 越南语 (vi), 英语 (en)
许可证: cc-by-4.0
规模: 100k<n<1M

数据集摘要

COCO-2017-Vietnamese 是 Microsoft Common Objects in Context (COCO) 2017 数据集的本地化版本。该版本专为越南语跨模态研究而策划，包含原始英文描述与高质量越南语翻译的配对。它是在双语框架下进行图像描述和多模态学习等任务的综合基准。

任务与标签

任务类别: 图像到文本 (image-to-text), 文本到图像 (text-to-image)
标签: vision, image-captioning, coco, vietnamese

数据集结构

数据集以扁平化的表格格式提供，针对 Hugging Face Dataset Viewer 和高速 Parquet 处理进行了优化。

数据实例

每个实例代表一个图像-描述对。为保持与标准训练流程的兼容性，图像数据会为每个关联的描述重复。

数据字段

image_id: 原始 COCO 数据集中的图像 ID。
caption_id: 每个特定标注（描述）的唯一 ID。
image: 包含视觉数据的图像对象。
caption_en: 原始的英文描述文本。
caption_vi: 翻译的越南语描述文本。

数据划分与规模

训练集 (train):
- 样本数量: 591,753
- 字节大小: 95,104,738,954.827
验证集 (validation):
- 样本数量: 25,014
- 字节大小: 3,666,417,387.754
下载大小: 67,774,085,459
数据集总大小: 98,771,156,342.581

使用方式

可以使用 Hugging Face datasets 库直接访问该数据集： python from datasets import load_dataset dataset = load_dataset("ai-enthusiasm-community/coco-2017-vietnamese")

引用信息

@inproceedings{lin2014microsoft, title={Microsoft coco: Common objects in context}, author={Lin, Tsung-Yi and Maire, Michael and Belongie, Serge and Hays, James and Perona, Pietro and Ramanan, Deva and Doll{a}r, Piotr and Zitnick, C Lawrence}, booktitle={Computer Vision--ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13}, pages={740--755}, year={2014}, organization={Springer} }

搜集汇总

数据集介绍

构建方式

在跨模态研究领域，COCO-2017-Vietnamese数据集基于经典的Microsoft COCO 2017数据集构建，通过专业翻译流程将原始英文描述转化为高质量的越南语文本。该过程确保了翻译的准确性与语境适应性，同时保留了原始图像与标注的对应关系，形成了包含图像、英文描述及越南语翻译的三元组结构，为双语视觉语言任务提供了扎实的数据基础。

特点

该数据集的核心特点在于其双语对齐特性，每张图像均配有英文与越南语的双重描述，支持图像描述生成、跨语言检索等多元任务。数据规模庞大，涵盖数十万实例，且以扁平化表格格式存储，便于高效处理与加载。其结构设计兼顾了与现有训练流程的兼容性，图像数据针对每条描述进行重复关联，确保了数据使用的灵活性与完整性。

使用方法

借助Hugging Face的datasets库，研究者可便捷加载该数据集，直接访问训练集与验证集。典型使用方式包括调用load_dataset函数获取数据对象，进而提取图像、英文描述及越南语描述字段，适用于模型训练、评估及跨语言对比实验。该接口设计简化了数据预处理步骤，使研究者能快速聚焦于跨模态算法的开发与验证。

背景与挑战

背景概述

COCO-2017-Vietnamese数据集由AI Enthusiasm团队于近年构建，作为微软通用对象上下文（COCO）2017数据集的越南语本地化版本。该数据集旨在服务于越南语跨模态研究，将原始英文描述与高质量越南语翻译配对，为图像描述生成和多模态学习等任务提供双语基准。其创建基于COCO数据集在计算机视觉领域的深远影响力，后者自2014年由Tsung-Yi Lin等研究者提出以来，已成为目标检测、分割与描述生成的核心评估资源。通过引入越南语标注，该数据集推动了多语言视觉语言理解的发展，尤其促进了东南亚语言在人工智能应用中的包容性。

当前挑战

该数据集致力于解决图像描述生成任务中的多语言挑战，特别是在资源相对匮乏的越南语环境下，如何实现准确、自然的视觉内容描述。构建过程中面临的主要挑战包括：确保越南语翻译在语义上与原始英文标注保持一致，同时保留语言特有的文化语境与表达习惯；处理大规模图像与文本配对数据时，需维持高质量标注的一致性，避免翻译过程中的信息损失或偏差；此外，在跨模态学习框架下，如何有效对齐越南语文本与视觉特征，以支持下游任务如双语图像检索或生成，亦是核心难点。

常用场景

实际应用

在实际应用层面，COCO-2017-Vietnamese数据集为开发面向越南语用户的智能系统提供了关键支持。例如，在无障碍技术领域，它可以用于构建能够为视障人士生成越南语图像描述的辅助工具。在内容创作与社交媒体平台，该数据集有助于开发自动为图片添加多语言标签的功能，从而提升内容的可访问性和跨文化传播效率。

衍生相关工作

围绕该数据集，研究社区已经衍生出多项经典工作，主要集中在多语言图像描述生成模型的架构创新与评估方法上。例如，研究者们利用其双语特性，开发了基于Transformer的编码器-解码器模型，专门用于处理英语到越南语的描述转换任务。此外，该数据集也常被用作基准，来验证新的跨模态预训练策略在低资源语言场景下的有效性与泛化能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集