T-HSAB
收藏github2021-08-31 更新2024-05-31 收录
下载链接:
https://github.com/yacinemrabet1/Tunisian-Sentiment-Analysis-Corpus.
下载链接
链接失效反馈官方服务:
资源简介:
T-HSAB是首个阿拉伯语突尼斯仇恨言论和辱骂语言数据集,于2019年10月16-17日在法国南希举行的第七届阿拉伯语言处理国际会议上提出。该数据集包含6,024条突尼斯评论,标记为正常、辱骂或仇恨。
T-HSAB is the first dataset for Tunisian Arabic hate speech and abusive language, presented at the 7th International Conference on Arabic Language Processing held in Nancy, France, from October 16-17, 2019. The dataset comprises 6,024 Tunisian comments labeled as normal, abusive, or hateful.
创建时间:
2021-08-31
原始信息汇总
数据集概述
L-HSAB (Levantine Hate Speech and ABusive)
- 描述: 第一个阿拉伯语黎凡特仇恨言论和辱骂语言数据集,包含5,846条来自叙利亚和黎巴嫩的政治推文,标记为正常、辱骂或仇恨。
- 来源: 3rd Workshop ALW-2019 co-located with ACL-2019, Florence, Italy.
T-HSAB (Tunisian Hate Speech and ABusive)
- 描述: 第一个阿拉伯语突尼斯仇恨言论和辱骂语言数据集,包含6,024条突尼斯评论,标记为正常、辱骂或仇恨。
- 来源: The 7th International Conference on Arabic Language Processing, October 16-17, 2019, Nancy, France.
T-SAC
- 描述: 包含约17,000条用户评论,收集自突尼斯电台和电视台的官方页面,手动标注为正面和负面极性。
- 来源: Facebook用户评论。
Tunisian Arabizi
- 描述: 包含70,000条突尼斯评论,使用拉丁字母和数字表达,标注为正面、负面或中性。
- 来源: 由Icompass团队从不同社交媒体平台收集。
TUNIZI
- 描述: 包含3,000条评论,其中1,500条为正面,1,500条为负面,收集自YouTube视频的评论。
- 来源: 由Icompass团队收集。
Google play store reviews (GPSR)
- 描述: 包含来自谷歌Play商店的突尼斯移动应用的评论数据,用于分析客户反馈。
数据集资源
- L-HSAB: https://github.com/Hala-Mulki/L-HSAB-First-Arabic-Levantine-HateSpeech-Dataset
- T-HSAB: https://github.com/Hala-Mulki/T-HSAB-A-Tunisian-Hate-Speech-and-Abusive-Dataset
- T-SAC: https://github.com/fbougares/TSAC
- Tunisian Arabizi: https://github.com/chaymafourati/TUNIZI-Sentiment-Analysis-Tunisian-Arabizi-Dataset
搜集汇总
数据集介绍

构建方式
T-HSAB数据集是首个针对突尼斯阿拉伯语的仇恨言论和侮辱性语言数据集,构建于2019年10月16日至17日在法国南锡举行的第七届阿拉伯语言处理国际会议上。该数据集通过收集突尼斯社交媒体上的用户评论,经过人工标注,最终整合了6,024条突尼斯评论,每条评论被标记为正常、侮辱性或仇恨言论。这一构建过程确保了数据的多样性和代表性,为研究突尼斯地区的在线语言行为提供了宝贵资源。
特点
T-HSAB数据集的特点在于其专注于突尼斯地区的阿拉伯语使用,特别是突尼斯方言中的仇恨言论和侮辱性语言。数据集中的评论涵盖了广泛的社会和政治话题,反映了突尼斯社会中的复杂情感和态度。每条评论都经过严格的人工标注,确保了数据的高质量和可靠性。此外,数据集的规模适中,既便于研究人员进行深入分析,又能够提供足够的样本量以支持统计显著性。
使用方法
T-HSAB数据集的使用方法主要围绕自然语言处理任务展开,特别是针对阿拉伯语的文本分类和情感分析。研究人员可以利用该数据集训练和评估机器学习模型,以识别和分类突尼斯方言中的仇恨言论和侮辱性语言。数据集中的标注信息为模型训练提供了明确的指导,使得模型能够学习到突尼斯方言中的特定语言模式和情感表达。此外,该数据集还可用于跨文化语言行为研究,帮助理解不同社会背景下在线言论的差异和共性。
背景与挑战
背景概述
T-HSAB数据集是首个针对突尼斯阿拉伯语的仇恨言论和侮辱性语言数据集,由Hala Mulki等研究人员在2019年10月16日至17日于法国南锡举行的第七届阿拉伯语言处理国际会议上提出。该数据集包含6,024条突尼斯用户的评论,每条评论被标注为正常、侮辱性或仇恨言论。T-HSAB的创建旨在应对突尼斯社交媒体环境中日益增长的仇恨言论问题,特别是在政治和社会动荡背景下,突尼斯在线讨论中频繁出现的侮辱性和仇恨性内容。该数据集为阿拉伯语自然语言处理领域的研究提供了重要资源,尤其是在情感分析和内容审核方面具有显著影响力。
当前挑战
T-HSAB数据集面临的挑战主要体现在两个方面。首先,在领域问题方面,突尼斯阿拉伯语的多样性和复杂性使得仇恨言论的识别和分类变得尤为困难。突尼斯方言中常夹杂法语、阿拉伯语标准语以及阿拉伯拉丁字母书写形式(Arabizi),这增加了文本处理的难度。其次,在数据集构建过程中,研究人员面临数据标注的挑战。由于仇恨言论和侮辱性语言的界定具有主观性,标注过程中需要确保标注者之间的一致性,同时避免文化偏见对标注结果的影响。此外,社交媒体数据的动态性和多样性也使得数据收集和清洗过程复杂化,进一步增加了构建高质量数据集的难度。
常用场景
经典使用场景
T-HSAB数据集主要用于阿拉伯突尼斯地区的仇恨言论和侮辱性语言的研究。该数据集通过收集和标注突尼斯社交媒体上的评论,为研究人员提供了一个丰富的资源,用于分析和理解在特定社会政治背景下,网络言论的演变和影响。
解决学术问题
T-HSAB数据集解决了在阿拉伯语环境中,尤其是突尼斯地区,缺乏高质量标注数据的问题。通过提供详细的标签(正常、侮辱性或仇恨言论),该数据集支持了自然语言处理领域中的情感分析和仇恨言论检测研究,促进了相关算法的发展和优化。
衍生相关工作
基于T-HSAB数据集,研究人员开发了多种先进的自然语言处理模型和算法,特别是在情感分析和仇恨言论检测方面。这些工作不仅推动了学术研究的进展,也为实际应用中的内容审核和社交媒体管理提供了技术支持。
以上内容由遇见数据集搜集并总结生成



