#PraCegoVer

Name: #PraCegoVer
Creator: 计算研究所，坎皮纳斯大学（Unicamp），巴西
Published: 2021-10-28 09:27:51
License: 暂无描述

arXiv2021-10-28 更新2024-06-21 收录

下载链接：

https://github.com/gabrielsantosrv/PraCegoVer

下载链接

链接失效反馈

官方服务：

资源简介：

#PraCegoVer是一个专为葡萄牙语图像字幕生成设计的大型多模态数据集，由巴西坎皮纳斯大学的计算研究所创建。该数据集基于Instagram上的#PraCegoVer标签下的帖子，旨在通过自然语言描述帮助视觉障碍人士更好地理解图像内容。数据集包含超过520,997条记录，每条记录包括图像和对应的葡萄牙语描述。创建过程中，研究团队开发了自动收集和预处理数据的框架，确保数据的质量和多样性。该数据集的应用领域主要集中在提高互联网内容的可访问性，特别是为视觉障碍用户提供服务，同时也支持图像字幕生成技术的研究和发展。

#PraCegoVer is a large-scale multimodal dataset specifically designed for Portuguese image captioning, created by the Institute of Computing at the University of Campinas in Brazil. This dataset is based on posts under the #PraCegoVer hashtag on Instagram, aiming to help visually impaired people better understand image content through natural language descriptions. It contains over 520,997 records, with each record including an image and its corresponding Portuguese caption. During the dataset creation process, the research team developed a framework for automated data collection and preprocessing to ensure the quality and diversity of the dataset. Its main application scenarios focus on improving the accessibility of internet content, especially providing services for visually impaired users, and it also supports research and development of image captioning technologies.

提供机构：

计算研究所，坎皮纳斯大学（Unicamp），巴西

创建时间：

2021-03-22

搜集汇总

数据集介绍

构建方式

受巴西社交媒体运动#PraCegoVer启发，该数据集从Instagram上收集带有该标签的公开帖子，利用自动化爬虫框架每日增量抓取图像与原始文本，并通过正则表达式提取其中的音频描述部分。为保障数据质量，研究团队设计了基于视觉与文本特征的重复检测聚类算法，利用余弦距离构建相似度图，结合HDBSCAN与UMAP降维技术，剔除高度相似的重复内容，最终形成包含约52万条图像-描述对的葡萄牙语多模态数据集。

特点

作为首个面向葡萄牙语图像描述任务的大规模自由标注数据集，#PraCegoVer具有鲜明的独特性。其描述文本平均长度约40词，远超MS COCO Captions的10词，且词长方差更大，带来了更高的语言建模难度。数据集涵盖海滩、家庭、政治选举、化妆品等多元主题，反映真实社交媒体场景。同时，许多低频词汇的出现频次极低，进一步加剧了模型训练挑战。此外，每张图像仅对应一条参考描述，与主流多参考数据集形成鲜明对比。

使用方法

该数据集适用于图像描述（Image Captioning）模型的训练与评估，尤其适合研究长句生成、低资源语言建模及跨域泛化能力。使用时需注意其单参考特性，经典指标如CIDEr-D可能因描述长度差异而表现不佳。数据集已按用户身份划分训练集、验证集与测试集（60%/20%/20%），避免同用户数据跨集出现。研究人员可基于公开代码库提取图像特征（如MobileNetV2）与文本特征，并结合去重后的干净子集进行实验。

背景与挑战

背景概述

图像描述（Image Captioning）是计算机视觉与自然语言处理交叉领域的关键任务，旨在自动生成能够准确反映图像内容的自然语言描述，对于提升互联网可访问性、特别是帮助视障人士融入数字社会具有重要意义。然而，现有大规模图像描述数据集如MS COCO Captions等主要集中于英语，其他语种的数据资源极为匮乏。在此背景下，受巴西社会运动PraCegoVer的启发，坎皮纳斯州立大学计算研究所的Gabriel Oliveira dos Santos、Esther Luna Colombini和Sandra Avila于2021年创建了#PraCegoVer数据集，这是首个面向葡萄牙语图像描述的大规模多模态数据集。该数据集基于Instagram上带有#PraCegoVer标签的公开帖子，收集了超过52万条图像-描述对，涵盖真实互联网场景中的多样化图像主题，为葡萄牙语图像描述研究提供了重要基础资源，并推动了非英语语言在视觉-语言任务中的发展。

当前挑战

#PraCegoVer数据集面临多重挑战。在领域问题层面，其描述文本平均长度约40词，远超MS COCO Captions的10词，且词频分布中低频词数量显著更高，导致基于CIDEr-D指标的现有模型（如AoANet）性能大幅下降，难以生成符合语料特点的长句描述。此外，数据集仅包含单条参考描述，缺乏多参考标注，增加了评估与训练的难度。在构建过程中，挑战尤为突出：Instagram平台对API访问的限制（仅允许获取近7天帖子）迫使研究团队设计多步骤爬取策略，通过先获取用户档案再遍历其历史帖子来突破限制；自由标注数据存在拼写错误、表情符号、URL链接等噪声，需借助正则表达式精准提取音频描述部分；大量重复或高度相似的帖子（约44.9%）需通过结合图像特征（MobileNetV2）与文本特征（TF-IDF）的聚类算法进行去重，以防止模型过拟合。

常用场景

经典使用场景

在图像描述（Image Captioning）这一计算机视觉与自然语言处理的交叉领域中，#PraCegoVer数据集以其独特的葡萄牙语标注特性，成为非英语环境下视觉语言理解研究的重要基石。该数据集源自Instagram上#PraCegoVer社会运动，收集了超过52万张带有自由文本描述的真实社交图像，其描述平均长度约40词，远长于MS COCO Captions的10词，且词频分布更为稀疏，为模型在长句生成和低频词学习方面带来了严峻挑战。研究者常将其作为基准，评估注意力机制、强化学习等先进方法在跨语言、高复杂度场景下的图像描述性能。

解决学术问题

#PraCegoVer数据集有效填补了图像描述领域非英语语料库的空白，解决了长期以来葡萄牙语等小语种缺乏大规模、真实场景标注数据的问题。通过对比实验，该数据集揭示了基于CIDEr-D评分的自临界序列训练（SCST）方法在长描述生成上的局限性——模型倾向于输出短句以匹配评分标准，导致性能显著下降。这一发现促使学界重新审视现有评价指标对语言多样性和描述长度的适应性，推动了针对长文本、高方差描述场景的模型架构与训练策略创新，如改进的注意力机制和跨语言迁移学习方法。

衍生相关工作

#PraCegoVer数据集的发布催生了多项相关研究工作。在模型层面，研究者借鉴其长描述与低频词特性，开发了适应高方差语言风格的图像描述算法，如引入长度感知的损失函数或基于变分自编码器的多样性生成模型。在数据层面，该数据集启发了其他小语种（如西班牙语、法语）图像描述语料库的构建，推动了跨语言视觉语言预训练模型（如多模态BERT）的扩展。此外，其关于社会偏见（如性别与种族关联）的分析报告，促进了公平性审计方法在视觉语言数据集中的标准化应用，成为评估模型伦理风险的重要参考案例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集