yangezheng/EXIST2021

Name: yangezheng/EXIST2021
Creator: yangezheng
Published: 2023-12-11 10:30:30
License: 暂无描述

Hugging Face2023-12-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/yangezheng/EXIST2021

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含四个特征：原始文本（text_original）、性别歧视标签（label_sexist，分为not sexist和sexist两类）、任务2相关文本（task2）和文本内容（text）。数据集分为训练集、验证集和测试集，分别包含5564、1391和4311个样本。数据集的下载大小为3040737字节，总大小为4362688.0字节。

This dataset contains four features: original text (text_original), sexism label (label_sexist, which is classified into two classes: not sexist and sexist), task 2-related text (task2), and text content (text). The dataset is divided into training, validation, and test sets, which contain 5564, 1391, and 4311 samples respectively. The download size of the dataset is 3040737 bytes, and the total size is 4362688.0 bytes.

提供机构：

yangezheng

原始信息汇总

数据集概述

特征信息

text_original: 类型为字符串。
label_sexist: 类型为分类标签，包含两个类别：
- 0: not sexist
- 1: sexist
task2: 类型为字符串。
text: 类型为字符串。

数据分割

train: 包含5564个样本，大小为2133072.8字节。
validation: 包含1391个样本，大小为533268.2字节。
test: 包含4311个样本，大小为1696347字节。

数据集大小

下载大小: 3040737字节
数据集大小: 4362688.0字节

配置信息

config_name: default
- data_files:
  - train: 路径为data/train-*
  - validation: 路径为data/validation-*
  - test: 路径为data/test-*

搜集汇总

数据集介绍

构建方式

在社交媒体内容分析领域，EXIST2021数据集通过系统化方法构建，旨在识别性别歧视言论。该数据集从多个在线平台收集原始文本，并采用人工标注与自动化流程相结合的方式，对每条文本进行双重标注：首先判断其是否属于性别歧视类别，进而细化分类至具体子任务。标注过程遵循严谨的准则，确保数据的一致性与可靠性，最终形成包含训练集、验证集和测试集的完整结构，为自然语言处理研究提供了高质量的基础资源。

使用方法

使用EXIST2021数据集时，研究者可借助HuggingFace平台直接加载，依据默认配置轻松访问各数据分割。该数据集适用于训练性别歧视检测模型，用户可基于text字段进行特征提取，结合label_sexist字段执行二元分类任务，或利用task2字段探索细粒度分类。在模型开发过程中，建议先使用训练集进行参数优化，通过验证集调整超参数，最终在测试集上评估性能。数据集格式规范，兼容主流机器学习框架，便于集成至现有研究流程中。

背景与挑战

背景概述

在社交媒体与数字通信蓬勃发展的时代，针对特定群体的仇恨言论检测成为自然语言处理领域的关键议题。EXIST2021数据集由Yang Zheng等人于2021年构建，旨在系统性地识别和分类英语与西班牙语文本中的性别歧视内容。该数据集源于国际语义评测大赛，核心研究聚焦于通过细粒度标注，推动自动化内容审核与偏见缓解技术的发展，对促进在线环境的公平性与包容性产生了深远影响。

当前挑战

EXIST2021数据集面临的挑战主要体现在两方面：其一，在领域问题层面，性别歧视表达常以隐晦、语境依赖或文化特定的形式出现，要求模型具备深层的语义理解与跨语言泛化能力；其二，在构建过程中，标注者需处理主观性强的文本，确保标注标准的一致性与可靠性，同时平衡多语言数据的代表性与质量，这些因素共同构成了数据收集与标注的复杂性。

常用场景

经典使用场景

在自然语言处理与计算社会科学交叉领域，EXIST2021数据集为性别歧视文本检测提供了标准化的评估基准。该数据集通过标注西班牙语和英语社交媒体文本中的性别歧视内容，支持研究者训练和验证分类模型，以区分文本是否包含性别歧视倾向。其经典使用场景在于为机器学习算法提供高质量、多语言的标注数据，推动自动内容审核与偏见识别技术的发展，成为该领域实证研究的重要工具。

解决学术问题

EXIST2021数据集有效解决了社交媒体中性别歧视内容自动识别的学术挑战。通过提供精细的标注体系，该数据集助力研究者探索自然语言理解中的偏见表征问题，并促进跨语言性别歧视检测模型的性能评估。其意义在于为计算语言学与社会学交叉研究建立了可复现的实验基础，推动了公平性人工智能的理论发展，对消减算法偏见具有深远影响。

实际应用

在实际应用层面，EXIST2021数据集为社交媒体平台的内容审核系统提供了技术支撑。基于该数据集训练的模型可集成至在线社区管理工具中，自动识别并过滤含有性别歧视的言论，从而营造更健康的网络环境。此外，该数据集也被用于开发教育辅助工具，帮助用户识别日常交流中的隐性偏见，提升公众对性别平等议题的认知。

数据集最近研究