NEU-ESC

Name: NEU-ESC
Creator: 越南国立经济大学技术学院
Published: 2025-06-30 13:19:04
License: 暂无描述

arXiv2025-06-30 更新2025-07-02 收录

下载链接：

https://huggingface.co/datasets/hung20gg/NEU-ESC

下载链接

链接失效反馈

官方服务：

资源简介：

NEU-ESC数据集是一个越南语的教育情感分类和主题分类数据集，由大学论坛数据整理而成，提供了更多样本、更丰富的类别多样性、更长的文本和更广泛的词汇。该数据集旨在解决现有教育数据集在越南语领域相关性和学生俚语方面的不足。数据集收集了来自各种在线来源的原始数据，包括大学相关的Facebook群组和社区论坛，以及一些不太受监管的论坛。数据经过预处理和清理，最终形成了包含近33,000个样本的数据集。NEU-ESC数据集适用于情感分析、仇恨言论检测和意见挖掘等任务，旨在解决越南高等教育系统中的相关问题。

NEU-ESC is a Vietnamese dataset for educational sentiment classification and topic classification, compiled from university forum data. It features a larger number of samples, richer category diversity, longer text lengths, and a more extensive vocabulary. This dataset aims to address the shortcomings of existing educational datasets in terms of Vietnamese domain relevance and student slang usage. Raw data was collected from various online sources, including university-related Facebook groups, community forums, and some less regulated forums. After preprocessing and cleaning, the finalized dataset contains nearly 33,000 samples. The NEU-ESC dataset is applicable to tasks such as sentiment analysis, hate speech detection, and opinion mining, and is designed to solve relevant issues within the Vietnamese higher education system.

提供机构：

越南国立经济大学技术学院

创建时间：

2025-06-30

搜集汇总

数据集介绍

构建方式

NEU-ESC数据集的构建过程体现了高度的系统性和专业性。研究团队从越南高校相关的Facebook群组和社区论坛中采集原始数据，这些平台因其高活跃度和真实的学生意见表达而被选为主要数据源。为全面捕捉学生言论，研究还纳入了XamVN和Voz等较少受监管的论坛内容。面对原始数据中普遍存在的青少年网络用语、拼写错误和特殊符号等问题，研究团队设计了一套完整的预处理流程，包括冗余字符清理、表情符号去除以及特殊符号过滤等步骤。针对学术领域常见的缩写术语，研究团队还专门构建了映射词典以实现术语标准化。经过严格的筛选和处理，最终形成了包含约33,000个样本的高质量数据集。

使用方法

NEU-ESC数据集支持多种自然语言处理任务的开发与评估。研究者可采用单任务学习范式，分别进行情感分析或主题分类任务；也可采用多任务学习框架，通过共享的BERT编码层同时优化两个任务的性能。数据集已按7:1:2的比例划分为训练集、验证集和测试集，便于模型开发与评估。对于预训练语言模型的应用，研究者可基于PhoBERT、XLM-Roberta或VisoBERT等越南语优化模型进行微调。实验表明，结合SMART损失正则化的多任务学习方法能达到最佳性能（情感分析83.7%，主题分类79.8%准确率）。此外，数据集还可用于评估大型语言模型在越南教育领域的零样本和小样本学习能力。

背景与挑战

背景概述

NEU-ESC数据集由越南国立经济大学技术学院的研究团队于2023年创建，旨在填补越南教育领域情感分析和主题分类任务的资源空白。该数据集从大学论坛和社交媒体平台采集了约33,000条学生评论，具有样本量大、类别多样、文本长度较长和词汇丰富等特点。作为首个专注于越南高等教育场景的多任务学习数据集，NEU-ESC不仅包含情感极性标注（中性、积极、消极、毒性），还细化了10个教育相关主题类别，为研究越南学生行为模式和教育管理决策提供了重要数据支撑。相较于既有越南数据集如UIT-VSFC，其在领域相关性和语言复杂性方面具有显著优势，已成为越南自然语言处理领域的新基准。

当前挑战

NEU-ESC数据集面临双重挑战：在领域问题层面，教育场景特有的学生俚语、学术缩略语和混合语言现象（如英越混用）对传统NLP模型构成理解障碍，尤其是毒性评论仅占2.56%的类别不平衡问题严重影响模型鲁棒性；在构建过程中，原始数据的非规范性特征突出，包括42.3%的评论含有拼写错误、青少年网络用语及非标准缩写，研究团队不得不建立包含1,200余条目的专业术语映射词典进行标准化处理。此外，多任务学习框架下，当联合训练情感分类（4类）和主题分类（10类）任务时，模型在低频类别如'社团活动'（2.01%）上的分类准确率较主导类别'学术讨论'（31.89%）低19.6个百分点，凸显了数据分布不均带来的建模难题。

常用场景

经典使用场景

在教育领域，理解学生的情感和意见对于提升教育质量至关重要。NEU-ESC数据集作为一个全面的越南语数据集，专门用于教育情感分析和主题分类，其经典使用场景包括分析学生在大学论坛和社交媒体上的评论。通过多任务学习，该数据集能够同时进行情感分类和主题分类，帮助教育机构实时掌握学生的情绪变化和关注点，从而优化教学策略和学生支持服务。

解决学术问题

NEU-ESC数据集解决了越南语自然语言处理领域中的多个学术问题。首先，它填补了越南语教育数据集的空白，提供了丰富的样本和多样化的类别。其次，数据集支持多任务学习，使得模型能够同时处理情感分析和主题分类任务，显著提升了分类准确率。此外，该数据集还提供了详细的基准测试结果，为后续研究提供了可靠的参考。

实际应用

在实际应用中，NEU-ESC数据集被广泛用于教育管理和学生服务优化。教育机构可以利用该数据集分析学生的反馈，识别潜在的问题并及时调整政策。此外，数据集还可用于开发智能聊天机器人，帮助学生解答疑问或提供心理支持。其丰富的数据样本和多样化的标签使其成为教育技术领域的重要工具。

数据集最近研究