TUNIZI

github2024-05-11 更新2024-05-31 收录

下载链接：

https://github.com/chaymafourati/TUNIZI-Sentiment-Analysis-Tunisian-Arabizi-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

TUNIZI是首个包含3K句子的突尼斯阿拉伯语数据集，涵盖不同主题，经过预处理并标注为正面和负面。数据集从社交媒体评论中收集，由iCompass团队负责收集。

TUNIZI is the first dataset containing 3,000 sentences in Tunisian Arabic, covering various topics, preprocessed and annotated as positive and negative. The dataset was collected from social media comments and curated by the iCompass team.

创建时间：

2020-04-29

原始信息汇总

数据集概述

数据集名称

名称: TUNIZI-Dataset
描述: 首个包含3K句子的突尼斯阿拉伯语数据集，内容涵盖不同主题，已预处理并标注为正面和负面情绪。

数据收集

来源: 社交媒体评论
收集方法: 使用网络爬虫从YouTube视频中提取
数据筛选: 仅包含突尼斯阿拉伯语（Tunisian Arabizi）评论，排除非阿拉伯语评论
数据组成: 1500条正面评论和1500条负面评论
收集时间: 最新评论日期为2019年8月30日，最旧评论日期为2020年1月8日
收集团队: iCompass团队（http://www.icompass.tn）

预处理和标注

预处理: 移除链接、表情符号和标点符号
标注人员: 五名突尼斯本土高学历人士（三男两女，硕士/博士水平）
标注方式: 评论标注为正面（1）或负面（-1）

相关论文

标题: TUNIZI: a Tunisian Arabizi sentiment analysis Dataset
作者: Fourati, Chayma; Messaoudi, Abir; Haddad, Hatem
发表: AfricaNLP Workshop, ICLR 2020
链接: arXiv:3091079

搜集汇总

数据集介绍

构建方式

TUNIZI数据集的构建基于对社交媒体上突尼斯阿拉伯语（Tunisian Arabizi）评论的系统性收集与整理。该数据集通过网络爬虫技术从YouTube视频的评论中提取了3000条句子，确保了数据的直接可观测性。在数据收集过程中，所有非阿拉伯语的评论均被剔除，最终形成了包含1500条正面评论和1500条负面评论的平衡数据集。数据的时间跨度从2019年8月30日至2020年1月8日，涵盖了不同主题的评论内容。

特点

TUNIZI数据集的显著特点在于其针对突尼斯阿拉伯语的独特性，采用了阿拉伯语与拉丁字母结合的表达方式。数据集经过预处理，去除了链接、表情符号和标点符号，确保了文本的纯净性。此外，数据集的标注由五位突尼斯母语者完成，其中包括三名男性和两名女性，均具有硕士或博士学历，确保了标注的准确性和文化适应性。

使用方法

TUNIZI数据集主要用于情感分析研究，特别适用于处理突尼斯阿拉伯语的情感分类任务。用户可以通过加载数据集，利用其中的正面和负面评论进行模型训练和测试。数据集的预处理和标注质量使其非常适合用于开发和验证情感分析算法，尤其是在处理非标准阿拉伯语表达时。

背景与挑战

背景概述

在社交媒体上，阿拉伯语使用者倾向于用其本土方言表达自己，突尼斯人则使用‘突尼斯阿拉伯语’（Tunisian Arabizi），这是一种通过补充数字到拉丁字母而非阿拉伯字母的表达方式。TUNIZI数据集由iCompass团队于2020年创建，是首个包含3000句平衡且覆盖不同主题的突尼斯阿拉伯语数据集，经过预处理并标注为正面和负面情感。该数据集的创建旨在推动对突尼斯阿拉伯语情感分析的研究，填补了该领域的空白，对自然语言处理（NLP）领域，特别是在非洲NLP研究中的贡献显著。

当前挑战

TUNIZI数据集在构建过程中面临多项挑战。首先，数据收集自社交媒体评论，需通过网络爬虫技术从YouTube视频中提取，并过滤非阿拉伯语的评论，确保数据纯净。其次，预处理阶段需去除链接、表情符号和标点符号，以简化数据结构。最后，标注过程由五位突尼斯母语者完成，确保情感分类的准确性，但由于文化背景和语言习惯的差异，标注一致性仍是一个挑战。此外，突尼斯阿拉伯语的独特性使得现有通用NLP工具难以直接应用，需开发专门的分析工具。

常用场景

经典使用场景

TUNIZI数据集在情感分析领域展现出其独特的应用价值。由于该数据集包含了3000条经过预处理和标注的突尼斯阿拉伯语评论，涵盖了不同主题，且平衡了正面和负面情感，因此它为研究者提供了一个理想的平台，用于开发和验证针对突尼斯阿拉伯语的情感分析模型。通过分析这些评论，研究者可以深入理解突尼斯社交媒体用户的情感表达模式，从而为跨文化情感分析研究提供宝贵的数据支持。

实际应用

在实际应用中，TUNIZI数据集可用于开发和优化社交媒体监控工具，帮助企业和政府机构更好地理解和回应公众在社交媒体上的情感表达。例如，企业可以利用该数据集训练的模型来分析消费者对其产品或服务的反馈，从而及时调整市场策略。此外，政府机构也可以通过分析公众对政策或事件的情感反应，进行有效的舆情管理和社会稳定维护。

衍生相关工作

TUNIZI数据集的发布激发了大量相关研究工作，特别是在情感分析和自然语言处理领域。许多研究者基于该数据集开发了新的情感分析算法，并探索了如何将这些算法应用于其他阿拉伯语方言。此外，TUNIZI数据集还促进了跨文化情感分析的研究，推动了不同语言和文化背景下情感表达的比较研究。这些衍生工作不仅丰富了情感分析的理论基础，也为实际应用提供了更多可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集