five

uitnlp/vietnamese_students_feedback

收藏
Hugging Face2022-10-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/uitnlp/vietnamese_students_feedback
下载链接
链接失效反馈
官方服务:
资源简介:
越南学生反馈语料库(Vietnamese Students’ Feedback Corpus,简称UIT-VSFC)是一个包含超过16,000条越南语句子的资源,每条句子都经过人工标注,标注内容包括情感类别和主题类别。该数据集主要用于情感分析和主题分类任务。通过最大熵分类器构建的基线模型在情感分类和主题分类任务上分别取得了约88%和84%的F1分数。数据集的语言为越南语,且为单语数据集。数据集的许可证信息未知。
提供机构:
uitnlp
原始信息汇总

数据集概述

数据集名称

  • 名称: Vietnamese Students’ Feedback Corpus (UIT-VSFC)

数据集描述

  • 描述: 该数据集包含超过16,000个句子,用于情感分析和主题分类两个任务。数据集中的句子经过人工标注,情感和主题的标注一致性分别达到91%和71%。此外,使用最大熵分类器作为基线模型,情感F1分数约为88%,主题F1分数超过84%。

语言

  • 语言: 越南语 (vi)

数据集结构

  • 数据实例: 每个实例包含文本句子、情感类别和主题类别。
  • 数据字段:
    • sentence (str): 文本句子。
    • sentiment: 情感类别,0 (负面), 1 (中性), 2 (正面)。
    • topic: 主题类别,0 (讲师), 1 (培训项目), 2 (设施), 3 (其他)。
  • 数据分割: 数据集分为训练集、验证集和测试集。

数据集创建

引用信息

@InProceedings{8573337, author={Nguyen, Kiet Van and Nguyen, Vu Duc and Nguyen, Phu X. V. and Truong, Tham T. H. and Nguyen, Ngan Luu-Thuy}, booktitle={2018 10th International Conference on Knowledge and Systems Engineering (KSE)}, title={UIT-VSFC: Vietnamese Students’ Feedback Corpus for Sentiment Analysis}, year={2018}, volume={}, number={}, pages={19-24}, doi={10.1109/KSE.2018.8573337} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作