five

ManRo/Sexism_Twitter_MeTwo

收藏
Hugging Face2022-04-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ManRo/Sexism_Twitter_MeTwo
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 --- The Dataset was built on 2022/03/29 to contribute to improve the representation of the Spanish language in NLP tasks tasks in the HuggingFace platform. The dataset contains 2,471 tweets obtained from their tweet_id. The dataset considers the following columns: - Column 1( Status_id): Corresponds to the unique identification number of the tweet in the social network. - Column 2( text): Corresponds to the text (in Spanish) linked to the corresponding "Status_Id", which is used to perform the sexism analysis. - Column 3 (Category): Corresponds to the classification that has been made when analyzing the text (in Spanish), considering three categories: (SEXIST,NON_SEXIST,DOUBTFUL) The dataset has been built thanks to the previous work of : F. Rodríguez-Sánchez, J. Carrillo-de-Albornoz and L. Plaza. from MeTwo Machismo and Sexism Twitter Identification dataset. For more information on the categorization process check: https://ieeexplore.ieee.org/document/9281090

许可证:Apache-2.0 --- 本数据集于2022年3月29日构建,旨在提升西班牙语在HuggingFace平台自然语言处理(Natural Language Processing, NLP)任务中的表征能力。 本数据集包含2471条通过推文ID获取的推文,涵盖以下字段: - 字段1(Status_id):对应该推文在社交网络中的唯一标识编号。 - 字段2(text):对应与上述“Status_id”绑定的西班牙语文本,用于开展性别歧视分析。 - 字段3(Category):对应针对该西班牙语文本分析后得到的分类标签,共包含三类:SEXIST(性别歧视类)、NON_SEXIST(非性别歧视类)、DOUBTFUL(存疑类)。 本数据集的构建依托于F. Rodríguez-Sánchez、J. Carrillo-de-Albornoz与L. Plaza的前期研究成果,其源自MeTwo Machismo and Sexism Twitter Identification数据集。 如需了解分类流程的更多细节,请访问:https://ieeexplore.ieee.org/document/9281090
提供机构:
ManRo
原始信息汇总

数据集概述

数据集创建目的

本数据集创建于2022年3月29日,旨在提升HuggingFace平台上西班牙语在NLP任务中的表现。

数据集内容

  • 数据量:包含2,471条推文。
  • 数据结构
    • Column 1 (Status_id):推文在社交网络中的唯一识别号。
    • Column 2 (text):与Status_Id关联的西班牙语文本,用于性别歧视分析。
    • Column 3 (Category):文本分析后的分类,包括三个类别:SEXIST, NON_SEXIST, DOUBTFUL。

数据集来源

该数据集基于F. Rodríguez-Sánchez, J. Carrillo-de-Albornoz和L. Plaza的研究成果,源自MeTwo Machismo and Sexism Twitter Identification数据集。

许可证

数据集遵循Apache-2.0许可证。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作