GeneratingCaptions

Hugging Face2026-03-04 更新2026-03-05 收录

下载链接：

https://huggingface.co/datasets/QUYENMANHNGUYEN/GeneratingCaptions

下载链接

链接失效反馈

官方服务：

资源简介：

HVU_VIC 是一个开源的越南语图像-描述语料库，旨在促进图像描述生成和视觉-语言系统的发展，特别是在低资源语言环境下。该数据集由越南富寿省雄王大学的研究团队开发，采用全自动数据构建流程，结合了从公开来源的网络爬取、图像-文本对的语义提取以及启发式/AI辅助过滤，以确保减少噪声、提高一致性并增强实际应用的可用性。数据集包含 29,970 张图像和对应数量的描述，每张图像配有 1 个描述。数据格式为 CSV，分隔符为 `|`，结构为 `image|caption`。数据集适用于越南语图像描述生成任务，并可用于评估视觉-语言系统（如使用 BLEU 和基于嵌入的余弦相似度）。数据集还提供了预训练模型和训练脚本，支持快速微调和应用开发。

创建时间：

2026-03-01

原始信息汇总

HVU_VIC 数据集概述

数据集基本信息

数据集名称: HVU_VIC
语言: 越南语 (Vietnamese)
主要任务: 图像描述生成 (Image Captioning)
许可协议: MIT
标签: 图像描述生成、自然语言处理、计算机视觉、多模态、低资源、代码
数据规模: 10K < n < 100K

数据集内容与规模

图像数量: 29,970
描述文本数量: 29,970
每张图像的描述数量: 1
标注格式: CSV，分隔符为 |
数据模式: image|caption

数据集构建

构建方法: 采用四阶段自动化流程构建。
1. 从包含越南语描述的公共网站选取相关网站。
2. 自动爬取原始网页、相关图像和基本元数据。
3. 通过页面结构（语义标签）提取干净的图像-描述对，在将标注导出为CSV前对文件名和描述进行规范化。
4. 利用AI/启发式辅助过滤，去除噪声样本（损坏/重复图像、空/过短描述、错误语言、乱码字符），提高整体一致性。
质量评估: 使用在VIC上训练的模型（ResNet-50编码器，基于注意力的LSTM解码器）对500张随机采样图像生成描述进行评估。
- BLEU分数: 19.86
- 语义相似度（余弦）: 0.673

数据集文件结构

数据集包含以下主要文件：

30K_IMG_1.zip: 图像压缩包。
Captions_30k.csv: 包含所有图像-描述对的标注文件。
captioner30k.pt: 预训练模型权重文件 (https://huggingface.co/datasets/QUYENMANHNGUYEN/GeneratingCaptions/tree/main)。
train_csv_captioner.py: 训练脚本。
infer_ui.py: 推理与用户界面脚本。
README.md: 说明文档。

主要用途

训练和评估越南语图像描述生成模型。
为越南语描述进行视觉-语言系统基准测试（例如使用BLEU和基于嵌入的余弦相似度）。
构建图像描述生成演示应用（例如Gradio UI）并支持人工评估。

引用信息

若在研究中使用本数据集，请引用： bibtex @inproceedings{nguyen2026method, author = {Ha Nguyen and Quyen Nguyen and Dang Do and Ngoc Hoang and Chung Mai}, title = {A Method for Building a image caption Corpora for Low-Resource Languages}, booktitle = {Proceedings of the 2026 International Symposium on Information and Communication Technology}, year = {2026}, publisher = {...}, series = {...}, address = {...}, note = {To appear} }

联系与支持

项目负责人: Dr. Ha Nguyen
所属机构: Hung Vuong University, Phu Tho, Vietnam
联系邮箱: nguyentienha@hvu.edu.vn

搜集汇总

数据集介绍

构建方式

在低资源语言处理领域，构建高质量的图像-文本数据集面临独特挑战。HVU_VIC数据集采用四阶段自动化流水线构建：首先筛选包含越南语描述的公开网站作为数据源，随后通过自动化爬虫收集原始网页、图像及元数据；接着利用页面语义标签结构提取纯净的图像-描述对，并进行文件名与文本归一化处理；最终通过AI辅助启发式过滤机制，有效剔除损坏图像、重复样本、非越南语文本及异常字符，确保数据的一致性与实用性。

特点

作为专为越南语设计的图像描述数据集，HVU_VIC展现出鲜明的技术特色。该数据集包含29,970个严格配对的图像-文本样本，每个图像仅对应一个描述，结构简洁明晰。其标注格式采用CSV文件存储，以竖线分隔符清晰划分图像路径与文本内容。特别值得注意的是，数据集通过预训练模型评估验证了实用性，在BLEU指标达到19.86分的同时，语义相似度余弦值达0.673，为低资源环境下的视觉-语言模型开发提供了可靠基准。

使用方法

针对越南语图像描述任务的应用需求，该数据集提供了完整的工具生态。研究人员可通过Hugging Face Hub直接加载CSV格式的标注数据，利用配套的训练脚本快速构建基于ResNet-50编码器与注意力LSTM解码器的描述生成模型。数据集同时提供预训练模型权重与交互式推理界面，支持用户通过Gradio可视化工具进行实时预测，并灵活调整图像尺寸、生成长度等超参数，为模型迭代与效果验证提供便捷的技术路径。

背景与挑战

背景概述

在计算机视觉与自然语言处理交叉的多模态研究领域，图像描述生成任务旨在让模型理解图像内容并生成连贯的文本描述。针对低资源语言如越南语，相关数据集的匮乏长期制约着该领域的发展。为此，越南雄王大学工程科技系副主任Ha Nguyen博士领导的团队于2026年创建了HVU_VIC数据集，这是一个包含近三万张图像与对应越南语描述的开源语料库。该数据集通过自动化流水线构建，旨在为低资源环境下的图像描述及视觉-语言系统开发提供实用资源，其评估结果证实了其在推动越南语多模态研究方面的实际影响力。

当前挑战

图像描述生成任务的核心挑战在于实现视觉内容与语言表达的精准对齐，要求模型不仅识别物体与场景，还需捕捉其属性、关系及上下文语义，以生成自然且信息丰富的描述。对于低资源语言如越南语，数据稀缺与质量不一进一步加剧了模型训练的难度。在构建HVU_VIC数据集过程中，研究团队面临了多重挑战：从公开网络源中爬取并筛选高质量的图像-文本对需克服噪声干扰，如重复图像、简短或空描述、语言错误及字符损坏等问题；通过结合启发式规则与人工智能辅助过滤，团队致力于提升数据的一致性与可用性，以支撑实际应用场景中的模型开发与评估。

常用场景

解决学术问题

该数据集有效解决了越南语作为低资源语言在图像描述任务中数据匮乏的学术研究问题。通过提供近三万条高质量的图像-描述对，HVU_VIC为构建和基准测试越南语视觉-语言模型奠定了数据基础，促进了跨语言多模态研究的均衡发展。其自动化构建流程与AI辅助过滤机制，确保了数据的低噪声与高一致性，为探索小语种环境下的模型泛化能力、数据效率以及跨语言迁移学习提供了重要实验平台。

衍生相关工作

围绕HVU_VIC数据集，已衍生出一系列相关经典工作，包括基于该数据集预训练的注意力机制图像描述模型（如随数据集发布的captioner30k.pt）。这些工作不仅为越南语图像描述任务设立了初步性能基准（如BLEU与语义相似度指标），还促进了低资源语言多模态研究工具链的开发，例如配套的训练脚本与推理界面。这些贡献为后续研究者在越南语乃至其他低资源语言的视觉-语言建模、数据增强与模型评估方面提供了可复现的参考框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集