uhhlt/amharichatespeechranlp
收藏Hugging Face2024-04-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/uhhlt/amharichatespeechranlp
下载链接
链接失效反馈官方服务:
资源简介:
Amharic Hate Speech数据集通过Twitter API收集,时间跨度为2020年10月1日至2022年11月30日,考虑了埃塞俄比亚在Twitter空间中的社会政治动态。数据注释使用了WebAnno工具,每条推文由两名母语者注释,并由一名更有经验的裁决者进行最终标注,以确定黄金标签。数据集包含15.1k条推文,分为三类:仇恨、冒犯和正常。
The Amharic Hate Speech Dataset is a text classification dataset containing 15.1k tweets collected via the Twitter API from October 1, 2020 to November 30, 2022, reflecting the socio-political dynamics of Ethiopia. The tweets are categorized into three classes: Hate, Offensive, and Normal. The dataset is annotated by two native Amharic speakers and an experienced adjudicator using the WebAnno tool. Detailed information and annotation guidelines for the dataset can be found in the GitHub repository. Additionally, the associated research papers provide more details about the dataset.
提供机构:
uhhlt
原始信息汇总
阿姆哈拉语仇恨言论数据集
基本信息
- 语言: 阿姆哈拉语
- 名称: Amharic Hate Speech Dataset
- 标签: am
- 数据量: 10K<n<100K
- 任务类别: 文本分类
数据集配置
- 配置名称: default
- 列名: ["label", "text"]
- 数据文件:
- 训练集: "train.tsv"
- 测试集: "test.tsv"
- 验证集: "dev.tsv"
数据收集与标注
- 收集时间: 2020年10月1日至2022年11月30日
- 收集方式: 使用Twitter API
- 标注工具: WebAnno
- 标注流程: 每条推文由两名母语者标注,并由一名经验丰富的仲裁者审核确定最终标签
- 数据量: 15.1k条推文
- 标签类别: Hate, Offensive, Normal
数据集详情
- 标签前缀: 上传版本中已移除
__label__前缀,使用训练脚本时需手动添加
引用信息
- 论文标题: Exploring Amharic Hate Speech Data Collection and Classification Approaches
- 作者: Abinew Ali Ayele, Seid Muhie Yimam, Tadesse Destaw Belay, Tesfa Asfaw, Chris Biemann
- 会议: 14th International Conference on Recent Advances in Natural Language Processing
- 出版年份: 2023



