CAMEO

Hugging Face2026-02-13 更新2026-02-14 收录

下载链接：

https://huggingface.co/datasets/allietran/CAMEO

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个越南语（vi）数据集，规模在10万到100万之间，包含产品和评论两个部分。数据集以Parquet文件格式提供，分为`products.parquet`和`reviews.parquet`两个文件。产品数据可能包含图像，通过`relative_path`字段可以定位到具体的图像文件。数据集适用于自然语言处理和计算机视觉任务，如产品分类、评论分析等。许可证为CC-BY-SA-4.0。

创建时间：

2026-02-12

原始信息汇总

CAMEO 数据集概述

基本描述

CAMEO 是一个越南语数据集，其规模在10万到100万条数据之间。

许可信息

本数据集采用 知识共享署名-相同方式共享 4.0 国际许可协议。

语言信息

主要语言：越南语

数据规模

规模类别：100K < n < 1M

数据配置与文件

数据集包含两个配置，分别对应不同的数据文件：

默认配置
- 配置名称：default
- 数据文件：
  - 文件路径：products.parquet
  - 数据分割：all
评论配置
- 配置名称：reviews
- 数据文件：
  - 文件路径：reviews.parquet
  - 数据分割：all

数据内容与结构

数据集包含两种主要类型的元数据：

产品元数据：存储在 products.parquet 文件中。
评论元数据：存储在 reviews.parquet 文件中。

图像数据说明

图像文件需通过 git-lfs 克隆或分片下载方式单独获取。
图像本地存储根目录建议为 ./hf_images。
元数据中包含 relative_path 字段，用于与本地图像文件路径进行拼接。

数据加载方式

可通过 datasets 库的 load_dataset 函数加载数据集：

加载完整数据集：load_dataset("allietran/CAMEO")
加载产品数据：load_dataset("allietran/CAMEO", data_files="products.parquet")
加载评论数据：load_dataset("allietran/CAMEO", data_files="reviews.parquet")

搜集汇总

数据集介绍

构建方式

在电子商务与计算机视觉交叉领域，CAMEO数据集通过系统化采集越南电商平台的实际商品信息构建而成。其构建过程整合了商品元数据与用户评论，形成结构化对偶数据源；商品图像通过分布式存储方案管理，确保大规模多媒体资源的可访问性与完整性。该数据集采用标准化数据清洗流程，剔除无效条目并统一格式，最终以Parquet文件封装，兼顾存储效率与读取性能。

特点

CAMEO数据集涵盖超过十万条商品记录，规模介于十万至百万级别，专注于越南语电商语境。其核心特征在于融合多模态信息：商品元数据提供结构化属性描述，用户评论则蕴含丰富的自然语言反馈，两者通过统一标识符关联。图像数据以相对路径索引，支持本地灵活部署，整体设计兼顾研究可复现性与实际应用需求，为跨语言商品理解任务提供了扎实基础。

使用方法

研究者可通过Hugging Face平台直接加载数据集元数据，利用datasets库解析Parquet格式文件。图像数据需通过Git LFS或分片下载方式独立获取，存储于本地指定目录后，通过相对路径映射实现元数据与图像的动态关联。典型工作流包括并行加载商品与评论数据，辅以图像加载辅助函数，支持多模态检索、商品推荐及跨语言自然语言处理等任务的端到端实验验证。

背景与挑战

背景概述

CAMEO数据集由研究人员Allie Tran于近期构建，专注于越南语电子商务领域的多模态研究。该数据集整合了商品元数据与用户评论文本，旨在推动跨语言自然语言处理与计算机视觉的融合应用。其核心研究问题聚焦于商品理解、情感分析及跨模态检索，为东南亚语言技术发展提供了重要资源，对多语言人工智能模型训练与评估具有显著影响力。

当前挑战

在电子商务领域，CAMEO数据集致力于解决商品分类、情感分析与跨模态对齐等复杂任务，这些任务面临语义歧义、文化语境差异及多模态数据异构性挑战。构建过程中，数据采集需克服越南语资源稀缺、商品图像质量不一以及元数据标注一致性等困难，确保数据集规模与质量平衡成为关键。

常用场景

经典使用场景

在电子商务与自然语言处理交叉领域，CAMEO数据集为多模态商品理解任务提供了经典应用场景。该数据集整合了越南语商品描述、用户评论及对应图像，常用于训练跨模态检索与推荐系统模型。研究者利用其丰富的图文对信息，能够开发出精准匹配用户查询与商品视觉特征的算法，从而优化在线购物平台的搜索体验。

实际应用

在实际商业环境中，CAMEO数据集可直接应用于东南亚地区的电子商务平台智能化升级。基于该数据集训练的模型能够实现自动化商品分类、视觉搜索增强以及个性化推荐生成，显著提升平台运营效率与用户满意度。同时，其多模态结构也为跨境电商的商品信息标准化与跨语言检索提供了技术支撑。

衍生相关工作

围绕CAMEO数据集已衍生出多项经典研究工作，特别是在跨模态预训练架构适配领域。研究者基于该数据集提出了针对越南语的视觉-语言联合表征模型，并探索了低资源多模态迁移学习范式。这些工作不仅推动了东南亚语言AI技术的发展，也为后续类似文化区域的多模态数据集构建提供了方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集