Gender-Hate-Speech-TR
收藏Hugging Face2025-12-14 更新2025-12-15 收录
下载链接:
https://huggingface.co/datasets/boun-tabilab/Gender-Hate-Speech-TR
下载链接
链接失效反馈官方服务:
资源简介:
土耳其性别仇恨言论数据集最初由ctoraman发布,包含土耳其语的推文,用于性别仇恨言论的分类。数据集包括训练集、验证集和测试集,其中验证集是通过特定分割方法从原始训练集和测试集中生成的。数据字段包括'text'(土耳其语推文)和'label'(分类标签:0表示正常,1表示冒犯性,2表示仇恨言论)。
The Turkish Gender Hate Speech Dataset was originally published by ctoraman. It contains Turkish-language tweets and is designed for gender hate speech classification tasks. The dataset is divided into training, validation, and test subsets, where the validation subset is generated from the original training and test subsets via a specific splitting approach. The dataset includes two core data fields: "text" (Turkish-language tweets) and "label" (classification labels: 0 stands for normal content, 1 represents offensive content, and 2 denotes hate speech).
创建时间:
2025-12-09
原始信息汇总
Gender Hate Speech Turkish 数据集概述
数据集基本信息
- 数据集名称:Gender Hate Speech Turkish
- 托管地址:https://huggingface.co/datasets/boun-tabilab/Gender-Hate-Speech-TR
- 来源数据集:https://huggingface.co/datasets/ctoraman/gender-hate-speech-turkish
数据集描述
本数据集为土耳其语性别仇恨言论数据集,原始版本由 ctoraman/gender-hate-speech-turkish 发布。当前版本在原始数据基础上重新划分了数据分割。
数据集结构
数据分割
- 训练集 (train):16,002 条样本
- 验证集 (validation):1,998 条样本
- 测试集 (test):2,000 条样本
数据字段
- text (字符串):土耳其语推文文本内容。
- label (int64):整型标签,对应含义如下:
- 0:正常 (Normal)
- 1:冒犯性言论 (Offensive)
- 2:仇恨言论 (Hate)
数据量及大小
- 总样本数:20,000 条
- 下载大小:3,034,520 字节
- 数据集大小:4,546,609 字节
- 训练集大小:3,636,870 字节
- 验证集大小:454,097 字节
- 测试集大小:455,642 字节
分割方法说明
原始数据集仅包含训练集和测试集。本版本通过以下方法获得了验证集:从原始训练集中划分出与测试集规模相当的验证集,并确保此方法在所有模型中应用的一致性。
搜集汇总
数据集介绍

构建方式
在社交媒体内容分析领域,性别仇恨言论的识别对自然语言处理技术提出了特定挑战。该数据集的构建源于对土耳其语社交媒体文本的系统性收集,原始数据仅包含训练集与测试集。为了满足模型验证的需求,研究者依据既定分割策略,从训练集中提取出与测试集规模相当的验证集,确保了数据划分的科学性与一致性。这种构建方式不仅保留了原始数据的分布特征,也为后续的模型评估提供了可靠的数据基础。
特点
该数据集聚焦于土耳其语环境下的性别仇恨言论检测,其核心特征体现在文本内容与标注体系的精心设计上。数据字段包含土耳其语推文文本及对应的三级分类标签,分别对应正常、冒犯性与仇恨言论。数据集规模适中,涵盖超过两万条样本,并已预先划分为训练集、验证集与测试集,为机器学习模型的训练与评估提供了结构化支持。这种设计使得研究者能够直接应用于分类任务,同时保持语言与文化背景的特异性。
使用方法
在自然语言处理的应用场景中,该数据集主要用于性别仇恨言论的自动检测与分类任务。使用者可直接加载数据集的三个标准分割,利用文本字段作为输入,标签字段作为监督信号,构建或微调分类模型。由于数据已预处理并分割完毕,研究者能够迅速开展实验,专注于模型架构与算法的优化。该数据集适用于评估模型在跨文化语境下的性能,为社交媒体内容审核等实际应用提供技术验证基础。
背景与挑战
背景概述
在自然语言处理领域,性别仇恨言论的自动检测已成为一项紧迫且复杂的研究课题。Gender-Hate-Speech-TR数据集由研究人员或机构ctoraman创建,专注于土耳其语社交媒体文本中的性别仇恨言论识别。该数据集旨在解决在线环境中针对性别群体的恶意言论自动分类问题,其核心研究问题在于如何准确区分正常、冒犯性及仇恨性言论,从而为构建更安全的数字空间提供数据支持。自发布以来,该数据集为土耳其语自然语言处理社区提供了重要的基准资源,推动了跨语言仇恨言论检测模型的发展,并对社交媒体内容审核系统的优化产生了积极影响。
当前挑战
该数据集所针对的领域挑战在于,性别仇恨言论的界定本身具有主观性和文化依赖性,尤其在土耳其语这类形态丰富的语言中,仇恨表达常隐含于语境、俚语或隐喻之中,使得自动分类模型面临语义模糊和上下文理解的困难。在构建过程中,挑战主要体现在数据采集与标注环节:社交媒体文本的非正式性和噪声干扰要求精细的预处理;而标注过程需依赖语言学专家以确保标签的一致性,同时平衡不同类别样本的分布,避免数据偏差影响模型泛化能力。这些因素共同构成了数据集构建与应用中的核心难点。
常用场景
经典使用场景
在自然语言处理领域,性别仇恨言论检测是社交媒体内容安全监控的关键任务。Gender-Hate-Speech-TR数据集作为土耳其语仇恨言论研究的基准资源,其经典使用场景聚焦于训练和评估机器学习模型,以自动识别土耳其语社交媒体文本中的性别仇恨内容。通过提供标注为正常、冒犯性或仇恨言论的土耳其语推文,该数据集支持监督学习方法的开发,帮助研究者构建精准的分类器,从而有效区分不同级别的有害语言。
实际应用
在实际应用中,Gender-Hate-Speech-TR数据集被广泛集成到社交媒体平台的内容审核系统中,用于实时监测和过滤土耳其语用户生成的仇恨言论。它支持开发自动化工具,帮助平台遵守数字安全法规,保护用户免受性别歧视和网络暴力的侵害。此外,该数据集还可用于教育机构和非政府组织的培训项目,提升公众对在线性别仇恨的认识,并辅助政策制定者设计更有效的网络治理策略。
衍生相关工作
基于该数据集,学术界衍生了一系列经典研究工作,包括开发针对土耳其语的多语言仇恨言论检测模型,如基于Transformer的预训练语言模型微调实验。这些工作扩展了跨语言迁移学习的方法,促进了低资源语言处理技术的发展。同时,研究者利用该数据集进行了仇恨言论的细粒度分析,探索了冒犯性与仇恨言论之间的语义边界,为构建更鲁棒和公平的内容分类系统提供了理论支撑。
以上内容由遇见数据集搜集并总结生成



