ViMRHP

Name: ViMRHP
Creator: 越南信息技术大学信息科学与工程学院、越南国立大学胡志明市分校
Published: 2025-05-12 18:11:28
License: 暂无描述

arXiv2025-05-12 更新2025-05-14 收录

下载链接：

https://github.com/trng28/ViMRHP

下载链接

链接失效反馈

官方服务：

资源简介：

ViMRHP是一个大规模的基准数据集，用于越南语多模态评论有用性预测任务。该数据集涵盖了四个领域，包括2000个产品和46000条评论。为了优化注释过程，我们利用人工智能来辅助标注员构建ViMRHP数据集。在人工智能的辅助下，标注时间大大减少，同时保持了数据质量和降低了总体成本。

ViMRHP is a large-scale benchmark dataset for the task of Vietnamese multimodal review helpfulness prediction. It covers four domains, including 2,000 products and 46,000 reviews. To optimize the annotation process, we utilized artificial intelligence to assist annotators in constructing the ViMRHP dataset. With the assistance of AI, annotation time was significantly reduced, while data quality was maintained and overall costs were lowered.

提供机构：

越南信息技术大学信息科学与工程学院、越南国立大学胡志明市分校

创建时间：

2025-05-12

原始信息汇总

ViMRHP: 越南多模态评论有用性预测基准数据集

数据集概述

目的：为多模态评论有用性预测(MRHP)任务构建的基准数据集
语言：越南语
数据来源：电子商务平台用户评论
特点：包含人类-AI协作标注的多模态数据

核心任务

输入：
- 产品信息
- 用户生成的评论
输出：
- 有用性评分(Helpfulness Score)

数据集结构

└── ViMRHP ├── Fashion │ ├── ProductImages │ ├── ReviewImages │ ├── Fashion-train.json │ ├── Fashion-dev.json │ └── Fashion-test.json ├── Electronic │ ├── ProductImages │ ├── ReviewImages │ ├── Electronic-train.json │ ├── Electronic-dev.json │ └── Electronic-test.json ├── HomeLifestyle │ ├── ProductImages │ ├── ReviewImages │ ├── HomeLifestyle-train.json │ ├── HomeLifestyle-dev.json │ └── HomeLifestyle-test.json └── Health & Beauty ├── ProductImages ├── ReviewImages ├── HealthBeauty-train.json ├── HealthBeauty-dev.json └── HealthBeauty-test.json

数据字段说明

字段	类型	说明
`Anonymous`	str	评论是否匿名
`BoughtProducts`	str	用户购买的产品列表
`Comment`	str	评论文本内容
`CommentDate`	str	评论日期
`CommentId`	int	评论唯一ID
`CommentImages`	list	用户上传的图片URL列表
`CommentImagesPath`	list	用户评论图片本地存储路径
`CommentVideos`	str	评论视频URL
`DecisionMakingAdvice`	str	购买决策建议有用性评分(1-5)
`DetailRating`	str	详细评分(产品质量/卖家服务/配送服务)
`Helpfulness_Score`	int	总体有用性评分(1-5)
`Id`	int	数据样本ID
`ImageHelpfulness`	str	图片有用性评分(1-5)
`KeyAspects`	str	关键产品方面覆盖评分(1-5)
`ProductId`	int	产品唯一ID
`ProductImage`	list	产品图片URL列表
`ProductImagesPath`	list	产品图片本地存储路径
`ProductName`	str	产品名称
`ProductUrl`	str	产品页面URL
`Rating`	int	用户总体评分(1-5)
`Region`	str	评论地区
`Response`	str	AI生成的评论分析响应
`ShopId`	int	店铺ID
`SubCategory`	str	产品子类别
`UserId`	int	用户ID

下载方式

Google Drive：
- Fashion: https://drive.google.com/file/d/1EsNnvAGUNJJd_XtthaENLywz2DPtoUIC/view
- Electronic: https://drive.google.com/file/d/1-D29tOyissD9z1qD6Q0eHQIuXFJkK8hp/view
- Health & Beauty: https://drive.google.com/file/d/1-IpBJaQyIQawIr8I-xJcSctnUsP_4dhd/view
- Home & Lifestyle: https://drive.google.com/file/d/1-I5e9iUINj1b8CnRdQn6wi45sObI6W31/view

使用说明

数据划分基于产品/评论列表，专为MRHP(排序)任务设计
用于其他任务(如情感分析、方面提取等)时，建议重新划分数据

许可证

MIT License

联系方式

Truc Nguyen: 21522721@gm.uit.edu.vn
Dat Nguyen: 21521937@gm.uit.edu.vn

搜集汇总

数据集介绍

构建方式

在电子商务平台日益依赖用户生成内容以增强消费者决策的背景下，ViMRHP数据集的构建采用了创新的人机协同标注框架。研究团队从越南主流电商平台Shopee采集了涵盖时尚、电子、家居生活、健康美容四大领域的46,000条多模态评论数据，通过两阶段标注流程确保数据质量：首先利用GPT-4o-mini模型进行初步标注（耗时1-2秒/条，成本约170美元），随后由三位经过专业培训的标注员进行人工核验与修正（耗时20-40秒/条，成本150美元）。该框架显著提升了标注效率，较纯人工标注节省65%成本并缩短至3周完成，同时通过Fleiss' κ系数（0.21-0.63）保障了标注一致性。

特点

作为首个越南语多模态评论有用性预测基准数据集，ViMRHP具备三大核心特征：多维度评估体系严格遵循三大标准（产品关键属性提及度、购买决策建议明确度、图像辅助价值），采用5分量表量化；领域覆盖全面，包含2,000种商品及其关联评论文本与图像，平均每条评论含2.1张用户上传图片；数据分布均衡，按70:10:20比例划分训练集、验证集和测试集，各领域评论长度（82-146词）与图像数量（7.4-8.2张/商品）经过标准化处理。特别值得注意的是，其人工核验标注与AI原始标注的偏差分析（Δ|H-A|=53.64%）为研究人机协作质量差异提供了宝贵实证。

使用方法

该数据集支持多模态排序任务的端到端评估，研究者可通过MatchZoo框架快速部署文本模型（BiMPM、DUET等）与多模态基线（MCR）。典型工作流包含三个关键步骤：使用Faster R-CNN提取评论图像区域特征，基于FastText嵌入处理评论文本；按预设阈值（NDCG@K, K∈{1,3,5}）评估模型性能，重点关注前5条评论的排序质量；对比分析人工核验与AI标注数据对模型表现的影响（如MCR模型在人工核验数据上NDCG@1提升5.36%）。数据集提供的标注界面与详细评分准则（见表3）可有效指导后续研究的标注标准统一。

背景与挑战

背景概述

ViMRHP（Vietnamese Multimodal Review Helpfulness Prediction）数据集由越南胡志明市信息科技大学的研究团队于2025年提出，旨在解决多模态评论有用性预测（MRHP）任务中越南语资源匮乏的问题。该数据集覆盖时尚、电子、家居与生活方式、健康与美容四大领域，包含2000种商品的46000条评论，每条评论均包含文本和图像信息。研究团队创新性地采用人机协同标注框架，通过大型语言模型（LLM）辅助标注，将单条标注时间从90-120秒压缩至20-40秒，总成本降低65%，同时通过人工验证保障数据质量。作为首个越南语MRHP基准数据集，ViMRHP弥补了现有研究以英语和印尼语为主的局限性，为低资源语言的推荐系统研究提供了重要基础设施。

当前挑战

ViMRHP面临的核心挑战体现在领域问题和构建过程两个维度。在领域层面，多模态评论有用性预测需同时处理文本语义与图像特征的异构性对齐，而越南语的复杂语法结构和低资源特性加剧了模型对评论关键方面（Key-aspects）、决策建议（Decision-making advice）和图像有用性（Image-helpfulness）的联合推理难度。构建过程中，AI标注在复杂语境理解上存在显著局限，人工验证发现关键方面标注的分数偏差高达81.29%，Cohen's Kappa系数仅0.31，迫使研究团队对50%的AI标注结果进行人工修正。此外，多模态数据（如图像清晰度、文本-图像相关性）的标准化评估框架设计，以及跨领域评论分布不均衡（健康美容类占比34.6%）带来的泛化性问题，均为数据集构建的关键挑战。

常用场景

经典使用场景

ViMRHP数据集在电子商务推荐系统中具有重要的应用价值，尤其在多模态评论有用性预测（MRHP）任务中表现突出。该数据集通过整合文本和图像信息，为越南语环境下的用户评论提供了全面的评估框架。研究者可以利用ViMRHP数据集训练和评估模型，以预测评论的有用性，从而提升推荐系统的准确性和用户体验。

衍生相关工作

ViMRHP数据集衍生了一系列经典的多模态评论有用性预测研究。例如，MCR（多视角一致性推理）模型通过整合文本和图像信息，显著提升了预测性能。此外，SANCL（选择性注意力和自然对比学习）模型和PRR-LI（基于隐式维度挖掘的个性化评论推荐）模型也基于该数据集取得了突破性进展，推动了MRHP领域的发展。

数据集最近研究