SEACrowd/uit_visd4sa

Name: SEACrowd/uit_visd4sa
Creator: SEACrowd
Published: 2024-06-24 13:26:45
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/uit_visd4sa

下载链接

链接失效反馈

官方服务：

资源简介：

Uit Visd4Sa数据集是一个用于基于方面的情感分析（Aspect-Based Sentiment Analysis, ABSA）任务中的跨度检测的越南语数据集。该数据集包含35,396个人工标注的跨度，这些跨度来自11,122条越南语反馈评论，主要用于移动电子商务领域的跨度检测评估。数据集的语言为越南语（vie），支持的任务为Span Based Absa。

The Uit Visd4Sa dataset is designed for span detection in aspect-based sentiment analysis (ABSA) tasks. It consists of 35,396 human-annotated spans from 11,122 feedback comments in Vietnamese, primarily used for evaluating span detection in mobile e-commerce. The dataset is in Vietnamese (vie) and supports the task of Span Based Absa.

提供机构：

SEACrowd

原始信息汇总

Uit Visd4Sa 数据集概述

基本信息

名称: Uit Visd4Sa
语言: 越南语 (vie)
任务类别: 基于方面的情感分析中的跨度检测 (Span Based Absa)
标签: 基于方面的情感分析中的跨度检测 (span-based-absa)
数据集大小: 35,396 个标注跨度，基于 11,122 条反馈评论
领域: 移动电子商务

数据集版本

源版本: 1.0.0
SEACrowd 版本: 2024.06.20

数据集许可证

许可证: 未知 (unknown)

引用

引用信息:

@inproceedings{thanh-etal-2021-span, title = "Span Detection for Aspect-Based Sentiment Analysis in Vietnamese", author = "Thanh, Kim Nguyen Thi and Khai, Sieu Huynh and Huynh, Phuc Pham and Luc, Luong Phan and Nguyen, Duc-Vu and Van, Kiet Nguyen", booktitle = "Proceedings of the 35th Pacific Asia Conference on Language, Information and Computation", year = "2021", publisher = "Association for Computational Lingustics", url = "https://aclanthology.org/2021.paclic-1.34", pages = "318--328", }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

在移动电子商务领域，情感分析对于理解用户反馈至关重要。UIT-ViSD4SA数据集专为基于方面的情感分析（ABSA）中的跨度检测任务而构建，其构建过程严谨且系统化。该数据集源自越南语用户评论，共包含11,122条反馈评论，并由人工标注了35,396个跨度，确保了标注的准确性和一致性。数据采集聚焦于移动电商场景，通过专业标注团队对评论中的方面词及其情感极性进行精细划分，为后续模型训练提供了高质量的基础语料。

特点

作为越南语情感分析领域的重要资源，UIT-ViSD4SA数据集展现出鲜明的特色。其核心在于跨度检测的精细化标注，每个标注单元均明确标识了评论中与特定方面相关的情感表达片段，支持细粒度的情感分析任务。数据集规模适中，覆盖了丰富的电商反馈场景，语言表达多样，能够有效捕捉越南语在自然语境中的复杂情感倾向。此外，数据集结构清晰，便于直接应用于机器学习模型的训练与评估，为跨语言情感分析研究提供了宝贵的实证数据。

使用方法

在自然语言处理研究中，高效利用数据集是推动模型性能提升的关键。UIT-ViSD4SA数据集可通过`datasets`库或`seacrowd`库便捷加载，支持多种配置选项以适应不同实验需求。用户只需导入相应库并调用`load_dataset`函数，即可获取结构化数据，进而进行跨度检测模型的训练、验证与测试。数据集兼容常见的机器学习框架，允许研究人员灵活调整预处理流程，并可通过指定配置名称加载特定子集，为模型开发与基准测试提供了高度可扩展的实验平台。

背景与挑战

背景概述

在自然语言处理领域，基于方面的情感分析（Aspect-Based Sentiment Analysis, ABSA）旨在从文本中识别特定方面及其情感倾向，而跨度检测（Span Detection）作为其关键子任务，专注于精准定位文本中与方面相关的片段。越南语作为低资源语言，在此类任务中面临数据稀缺的挑战。为此，UIT-ViSD4SA数据集应运而生，由越南胡志明市信息科技大学（University of Information Technology, VNU-HCM）的研究团队于2021年创建，核心研究问题聚焦于越南语移动电商评论中的跨度检测，以支持细粒度情感分析。该数据集包含35,396个人工标注的跨度，覆盖11,122条反馈评论，为越南语NLP研究提供了重要资源，推动了东南亚语言处理技术的发展，并集成于SEACrowd多语言数据平台，增强了区域语言的模型评估能力。

当前挑战

UIT-ViSD4SA数据集所解决的领域问题在于越南语基于方面的情感分析中的跨度检测，其挑战包括越南语复杂的语言结构（如词序灵活、复合词丰富）导致方面边界模糊，以及情感表达的文化特异性增加了标注一致性难度。在构建过程中，研究人员面临数据收集与标注的挑战：移动电商评论的领域多样性要求广泛的样本覆盖，而人工标注需处理大量非正式文本和俚语，确保跨度的精确性与情感关联的准确性；同时，低资源语言缺乏预标注工具，增加了初始标注成本与质量控制复杂度。这些挑战共同凸显了数据集在推动越南语NLP应用中的基础性作用。

常用场景

经典使用场景

在移动电子商务领域，用户反馈的情感分析是提升服务质量的关键环节。该数据集专为基于方面的情感分析任务设计，通过标注越南语评论中的具体方面词及其情感极性，为模型训练提供了丰富的语料。研究者通常利用该数据集构建端到端的跨度检测模型，以精准识别评论中涉及的产品或服务方面，进而分析用户情感倾向，从而优化电商平台的用户体验管理。

实际应用

在实际应用中，该数据集被广泛用于移动电商平台的智能客服与产品优化系统。通过分析用户评论中的具体方面（如价格、性能、外观）及其情感，企业可以自动化识别产品优缺点，快速响应负面反馈，并制定精准的营销策略。这不仅提升了客户满意度，还降低了人工审核成本，为越南语市场的商业智能决策提供了数据驱动支持。

衍生相关工作

基于该数据集，学术界衍生了一系列经典研究工作，例如Thanh等人提出的跨度检测模型，该模型在越南语情感分析任务中取得了显著性能提升。此外，SEACrowd项目将其整合为多语言基准套件的一部分，促进了东南亚语言NLP资源的标准化与共享。这些工作不仅拓展了数据集的适用范围，还推动了跨语言迁移学习与低资源语言处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集