CoRoSeOf
收藏github2023-06-06 更新2024-05-31 收录
下载链接:
https://github.com/DianaHoefels/CoRoSeOf
下载链接
链接失效反馈官方服务:
资源简介:
一个包含约40,000个罗马尼亚性别歧视和攻击性样本的标注语料库,其中约10%的样本被标注为性别歧视,约11%的样本被标注为攻击性。
A labeled corpus containing approximately 40,000 samples of Romanian sexist and offensive language, with about 10% of the samples labeled as sexist and approximately 11% labeled as offensive.
创建时间:
2021-12-13
原始信息汇总
数据集概述
数据集名称
CoRoSeOf: An annotated Corpus of Romanian Sexist and Offensive Language
数据集内容
- 样本数量: 约40,000个样本
- 分类比例: 约10%为性别歧视内容,约11%为攻击性内容
数据集结构
- corpus 文件夹: 包含推文ID、抽样技术、标注者ID及性别、非聚合标注和多数投票标签
- docs 文件夹: 包含标注指南和用于查询数据的关键词
许可证
数据集使用CC-BY-SA许可证
相关出版物
- 论文标题: CoRoSeOf - An Annotated Corpus of Romanian Sexist and Offensive Tweets
- 发表会议: LREC2022
- 论文链接: CoRoSeOf 论文
贡献者
- Diana Constantina Höfels: diana-constantina.hoefels@student.uni-tuebingen.de
- Dr. Çağrı Çöltekin: 个人网站
- Dr. Irina Diana Mădroane: irina.madroane@e-uvt.ro
标注团队
- 来自Interdisciplinary Center of Gender Studies - West University of Timișoara的标注团队成员
数据使用条款
- 数据集内容基于Twitter数据,使用时需遵守Twitter的开发者协议与政策及相关条款。
搜集汇总
数据集介绍

构建方式
CoRoSeOf数据集的构建基于罗马尼亚社交媒体平台上的推文,通过关键词查询技术收集了大量样本。数据集的构建过程包括多轮人工标注,标注者团队由性别研究领域的专家组成,确保了标注的准确性和一致性。每个样本均经过多位标注者的独立标注,并通过多数投票机制确定最终标签,确保了数据的高质量。
特点
CoRoSeOf数据集包含约40,000条罗马尼亚语推文,其中约10%的样本被标注为性别歧视内容,约11%的样本被标注为冒犯性语言。数据集的独特之处在于其多标注者标注机制,标注者之间的Fleiss’κ一致性系数为0.45,表明标注结果具有较高的可靠性。此外,数据集还提供了详细的标注指南和关键词列表,便于研究者理解标注标准。
使用方法
CoRoSeOf数据集适用于性别歧视和冒犯性语言的检测研究。研究者可以通过分析数据集中的标注样本,开发或优化自然语言处理模型。数据集提供了推文ID、采样技术、标注者信息及多数投票标签,便于研究者进行数据分析和模型训练。使用该数据集时,需遵循Twitter的开发者协议和政策,并引用相关文献以尊重数据集的贡献者。
背景与挑战
背景概述
CoRoSeOf数据集由Diana Constantina Höfels、Çağrı Çöltekin和Irina Diana Mădroane等研究人员于2022年创建,旨在为罗马尼亚语中的性别歧视和冒犯性语言研究提供支持。该数据集包含约40,000条罗马尼亚社交媒体样本,其中约10%为性别歧视内容,11%为冒犯性语言。数据集通过多轮人工标注,标注者之间的一致性达到Fleiss’ κ=0.45,确保了数据的可靠性。CoRoSeOf的发布为罗马尼亚语自然语言处理领域提供了重要的资源,特别是在性别歧视检测和冒犯性语言识别方面,推动了相关研究的进展。该数据集已在LREC 2022会议上发表,并获得了广泛关注。
当前挑战
CoRoSeOf数据集在构建过程中面临多重挑战。首先,性别歧视和冒犯性语言的界定具有高度主观性,标注过程中需要克服文化背景和语言习惯的差异,以确保标注的一致性和准确性。其次,数据集的规模较大,标注工作需要耗费大量时间和人力资源,同时还需处理社交媒体文本中的噪声和非标准语言表达。此外,由于数据来源于Twitter,受限于平台的使用条款和政策,数据的获取和使用需严格遵守相关规定,这为数据集的构建和分发增加了复杂性。尽管面临这些挑战,CoRoSeOf仍为罗马尼亚语中的性别歧视和冒犯性语言研究提供了宝贵的资源。
常用场景
经典使用场景
CoRoSeOf数据集主要用于研究罗马尼亚语中的性别歧视和冒犯性语言。该数据集包含约40,000个样本,其中约10%为性别歧视内容,11%为冒犯性语言。研究者可以利用这些数据进行自然语言处理任务,如文本分类、情感分析和语言模型训练,以识别和分类社交媒体上的不当言论。
解决学术问题
CoRoSeOf数据集解决了在罗马尼亚语环境中识别和分类性别歧视及冒犯性语言的学术研究问题。通过提供大量手动标注的社交媒体数据,该数据集为研究者提供了基准数据,支持开发更精确的自动检测算法。这不仅有助于理解语言中的偏见和攻击性,还为跨文化语言研究提供了宝贵资源。
衍生相关工作
CoRoSeOf数据集的发布促进了多项相关研究工作的开展。例如,基于该数据集的研究成果已被应用于改进罗马尼亚语的自动文本分类系统,特别是在性别歧视和冒犯性语言检测方面。此外,该数据集还激发了更多关于多语言环境下语言偏见和攻击性语言的研究,推动了自然语言处理领域的进一步发展。
以上内容由遇见数据集搜集并总结生成



