Uli Dataset

Name: Uli Dataset
Creator: 哥本哈根大学, 丹麦
Published: 2023-11-16 00:30:44
License: 暂无描述

arXiv2023-11-16 更新2024-06-21 收录

下载链接：

https://uli.tattle.co.in/

下载链接

链接失效反馈

官方服务：

资源简介：

Uli数据集是由哥本哈根大学等机构创建，专注于性别暴力在线检测的数据集。该数据集包含三种语言：印地语、泰米尔语和印度英语，共计约8000条推文，由专家标注性别虐待相关内容。数据集的创建过程采用了参与式方法，旨在通过AI系统解决性别暴力问题。此数据集不仅关注文本内容，还考虑了性别虐待的上下文和经验，为性别暴力在线检测提供了丰富的资源。

The Uli Dataset is a collection developed by institutions including the University of Copenhagen, dedicated to online detection of gender-based violence. This dataset covers three languages: Hindi, Tamil, and Indian English, containing approximately 8,000 tweets annotated by experts for gender-based abusive content. The dataset was constructed using a participatory methodology, aiming to address gender-based violence through AI systems. Beyond focusing on textual content, this dataset also takes into account the context and lived experiences related to gender-based abuse, providing a rich resource for online gender-based violence detection.

提供机构：

哥本哈根大学, 丹麦

创建时间：

2023-11-16

搜集汇总

数据集介绍

构建方式

在在线性别暴力日益严峻的背景下，Uli数据集采用了一种参与式构建方法，专注于印地语、泰米尔语和印度英语中的性别化辱骂内容。数据收集始于从活动家和研究者处众包侮辱性词汇及关键词列表，并结合已知施害者账户和针对高影响力女性的推文回复，通过Python Twint库从2018年至2021年间爬取了约130万条推文。为优化标注效率，研究团队采用民主协同训练策略，利用多个预训练模型对未标注数据生成噪声标签，并基于平均置信度分数进行分层抽样，最终从各语言中精选出约8000条样本，确保数据在内容类型上的多样性与平衡性。

使用方法

该数据集主要应用于在线性别暴力检测模型的开发与评估，尤其适用于针对印度多语言环境的自然语言处理研究。使用者可通过公开的GitHub仓库获取以CC BY 4.0许可发布的CSV格式数据，其中包含标注者级别的原始标签，便于进行细粒度分析或聚合处理。在模型训练中，建议采用如IndicBERT或XLM-Twitter-RoBERTa等预训练模型进行微调，以应对不同语言间的性能差异；同时，数据集中标注者间的分歧可作为研究主观判断与语境依赖性的宝贵资源，推动更包容、更精准的自动化内容审核工具的发展。

背景与挑战

背景概述

随着互联网与社交媒体的普及，在线性别暴力问题日益凸显，尤其在非英语国家，语言与文化背景的复杂性使得自动化检测面临严峻挑战。Uli数据集由Tattle Civic Tech等机构联合多位性别权利研究者于2022年创建，聚焦于印度语境下的三种语言——印地语、泰米尔语及印度英语，旨在构建一个以边缘性别群体体验为核心的标注数据集。该数据集通过邀请女性及LGBTQIA社群成员作为专家标注者，采用参与式方法重新定义性别暴力，推动了人工智能系统在多元文化背景下的公平性与包容性发展。

当前挑战

Uli数据集在构建与应用中面临多重挑战。在领域问题层面，性别暴力的主观性与文化依赖性使得自动化检测模型难以达成高一致性标注，尤其在缺乏上下文的情况下，标注者对于同一文本的解读可能因个人经历而产生显著分歧。构建过程中，数据收集受限于文本形式，无法涵盖图像、视频等多模态暴力表达；同时，专家标注者的时间与设备差异影响了标注进度与质量，而跨语言标注指南的翻译与本土化亦增加了协调难度。此外，如何在有限预算下平衡数据多样性与标注效率，仍是未来扩展的关键挑战。

常用场景

经典使用场景

在在线性别暴力研究领域，Uli数据集为构建多语言自动化检测模型提供了关键支持。该数据集聚焦于印地语、泰米尔语和印度英语的社交媒体文本，通过专家标注的方式，系统捕捉了性别虐待的复杂表现形式。研究者利用该数据集训练机器学习模型，以识别包含性别歧视、恐跨或攻击性语言的推文，从而推动针对非英语环境的仇恨言论检测技术发展。

解决学术问题

Uli数据集有效应对了性别暴力检测中语境依赖与语言多样性的学术挑战。传统研究多集中于英语文本，缺乏对全球多数地区语言环境的覆盖，该数据集通过纳入南亚地区边缘性别群体的生活经验，提供了更贴近现实的语言样本。其标注框架区分了针对性与非针对性性别虐待，深化了对在线暴力动态机制的理解，为跨文化比较研究奠定了数据基础。

实际应用

该数据集直接服务于用户端干预工具的开发，帮助个体应对社交媒体上的性别暴力。例如，基于数据训练的模型可集成至浏览器插件，自动屏蔽或标记有害内容，为用户提供实时保护。此外，该数据集也为平台内容审核系统的优化提供参考，尤其在处理印度多语言环境中的隐性虐待表达时，能够提升识别准确性与文化适应性。

数据集最近研究