ViSFD
收藏Hugging Face2025-06-21 更新2025-06-22 收录
下载链接:
https://huggingface.co/datasets/visolex/ViSFD
下载链接
链接失效反馈官方服务:
资源简介:
UIT-ViSFD是一个越南语的情感分析数据集,专为方面情感分析设计。它包含11122条来自主要电子商务平台的人工注释评论,每个评论涉及10个方面类别,并为每个方面分配了正面、中性或负面的情感极性。数据集分为训练、验证和测试集,并通过CSV文件统一提供。
创建时间:
2025-06-16
搜集汇总
数据集介绍

构建方式
ViSFD数据集构建过程体现了对越南语电商评论的深度挖掘与系统化标注。研究团队从主流电商平台采集了11,122条真实用户评论,通过人工标注建立了包含10个商品方面类别(如质量、服务等)和3种情感极性(正面/中立/负面)的细粒度标注体系。原始数据经过专业清洗后,采用标准的数据划分策略生成训练集、验证集和测试集,最终整合为包含评论内容、星级评分、时间戳等多维特征的CSV文件,并通过JSON格式编码方面级情感标签。
特点
该数据集最显著的特征在于其针对越南语场景的细粒度情感分析能力。每条评论不仅包含原始文本和1-5星的总体评分,还精确标注了10个不同商品方面的独立情感倾向,为多维度情感建模提供了丰富素材。数据时间跨度特征使得其兼具静态分析和时序研究的双重价值。统一的CSV结构配合明确的数据分割标识,既保持了原始研究的可复现性,又提升了后续使用的便捷度。
使用方法
使用ViSFD数据集时,可通过HuggingFace的datasets库直接加载原始数据。加载后的数据可根据type字段快速划分为训练、验证和测试子集。每条数据的label字段需经JSON解析后使用,其中包含各预设方面的情感分类标签。典型应用场景包括构建多任务学习模型,同时预测总体星级评分和细粒度的方面情感。研究人员还可利用时间戳字段开展纵向情感趋势分析,或结合其他越南语NLP工具进行更深层次的语言特征挖掘。
背景与挑战
背景概述
越南智能手机反馈数据集ViSFD由越南信息技术大学的研究团队于2021年构建,旨在推动越南语细粒度情感分析领域的研究。该数据集聚焦电子商务场景下的用户评论,通过标注10个产品维度和3种情感极性,为多维度情感分类任务提供了重要基准。作为东南亚语言资源稀缺背景下诞生的专业语料,其构建过程严格遵循语言学规范,标注工作由专业团队完成,数据来源覆盖主流电商平台的实际用户反馈。该数据集的发布填补了越南语领域情感分析资源的空白,为后续研究提供了高质量的实验数据支撑,相关成果已发表于Springer国际会议论文集。
当前挑战
ViSFD数据集面临的挑战主要体现在两个方面:在领域问题层面,越南语复杂的语言特征和电商评论中普遍存在的非正式表达对情感分析模型提出了更高要求,需要解决词嵌入表示、语境理解等技术难题;在构建过程层面,多维度标注体系导致标注一致性控制困难,不同标注者间的分歧处理消耗了大量人工成本,同时原始数据中的网络用语拼写错误和缩写形式增加了预处理难度。此外,数据采集过程中如何平衡不同产品类别的样本分布,确保数据集的代表性和无偏性,也是构建团队需要克服的重要挑战。
常用场景
经典使用场景
在越南语自然语言处理领域,ViSFD数据集因其精细的方面级情感标注而成为研究多维度情感分析的经典基准。该数据集最典型的应用场景是训练和评估神经网络模型对电商平台用户评论进行细粒度情感分类,研究者通过分析消费者对产品10个不同方面的情感极性(正面/中性/负面),揭示用户偏好的微观结构。
实际应用
在商业智能系统中,ViSFD支持企业构建越南市场的社交聆听平台,通过实时分析海量用户反馈,精准识别产品在性能、价格等维度的口碑变化。某手机品牌曾利用该数据集训练的情感分析模型,成功定位到摄像头模块的负面评价集中现象,促使厂商在下一代产品中优先改进光学组件。
衍生相关工作
基于ViSFD的基准测试催生了SA2SL等代表性研究,该工作首次将方面情感分析系统整合到商业决策流程中。后续研究如PhoBERT-ViSFD探索了预训练语言模型在该数据集上的迁移学习效果,而CrossLingual-ViSFD则开创了越南语与英语的跨语言情感分析对比研究范式。
以上内容由遇见数据集搜集并总结生成



