hajili/azerbaijani_tweet_emotion_classification

Name: hajili/azerbaijani_tweet_emotion_classification
Creator: hajili
Published: 2023-11-12 10:39:51
License: 暂无描述

Hugging Face2023-11-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/hajili/azerbaijani_tweet_emotion_classification

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含15万条（训练集+测试集）经过清洗的阿塞拜疆语推文。这些推文收集于2021年，并通过多个步骤进行过滤和清理。具体步骤包括使用twint库进行初始数据收集、使用fastText语言识别模型筛选阿塞拜疆语推文、使用表情符号作为基于规则的分类器将推文分类为三种情感类别（正面、负面、中性），以及清理标签、用户名和表情符号，并过滤掉过短的推文。

提供机构：

hajili

原始信息汇总

数据集概述

数据集信息

许可证: MIT
任务类别: 文本分类
语言: 阿塞拜疆语
数据量: 100K<n<1M

数据集描述

数据来源: 2021年收集的推文
数据处理步骤:
- 使用twint库收集初始数据，该工具目前已废弃，无法与新版Twitter配合使用。
- 通过fastText语言识别模型进一步筛选阿塞拜疆语推文。
- 使用表情符号作为基于规则的分类器，将推文分为三种情感类别：{积极: 1, 消极: -1, 中性: 0}。
- 清理标签、用户名和表情符号。
- 过滤掉短推文。

5,000+

优质数据集

54 个

任务类型

进入经典数据集