five

elmurod1202/uzbek-sentiment-analysis

收藏
Hugging Face2022-05-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/elmurod1202/uzbek-sentiment-analysis
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是第一个用于乌兹别克语情感分析的注释数据集,来源于乌兹别克斯坦Google Play Store前100个应用的评论,包含2500条正面和1800条负面评论。此外,还通过自动翻译现有英文应用评论数据集构建了一个更大的数据集,经过手动消除主要机器翻译错误后,该翻译数据集包含约10K正面和10K负面应用评论。
提供机构:
elmurod1202
原始信息汇总

数据集概述

数据集名称

  • uzbek-sentiment-analysis

数据集描述

  • 该数据集专注于乌兹别克语的情感分析,包含两个主要部分:
    1. 手动标注的乌兹别克语应用评论数据集:从乌兹别克斯坦地区Google Play商店的前100名应用中收集,包含2500条正面评论和1800条负面评论。
    2. 自动翻译的乌兹别克语应用评论数据集:通过Google Translate API将现有的英语应用评论数据集自动翻译成乌兹别克语,经过人工校正后,包含约10,000条正面评论和约10,000条负面评论。

数据集用途

  • 用于乌兹别克语的情感分类研究,支持深度学习和传统机器学习模型的训练与测试。

数据集贡献

  • 首次创建了乌兹别克语情感分析的手动标注数据集。
  • 定义了乌兹别克语情感分析的基准,比较了传统机器学习方法和深度学习技术的效果。

研究结果

  • 研究结果显示,尽管所有测试模型都相对准确,但深度学习模型并未显著优于传统模型。研究认为当前可用的乌兹别克语预训练词嵌入的质量不足以让深度学习模型发挥其全部潜力。

引用信息

  • 若使用此数据集,请引用以下文献:

    @inproceedings{kuriyozov2019deep, author = {Kuriyozov, Elmurod and Matlatipov, Sanatbek and Alonso, Miguel A and Gómez-Rodríguez, Carlos}, title = {Deep Learning vs. Classic Models on a New {U}zbek Sentiment Analysis Dataset}, booktitle = {Human Language Technologies as a Challenge for Computer Science and Linguistics – 2019}, publisher = {Wydawnictwo Nauka i Innowacje}, year = {2019}, pages = {258--262} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作