GalMisoCorpus2023

github2024-05-20 更新2024-05-31 收录

下载链接：

https://github.com/luciamariaalvarezcrespo/GalMisoCorpus2023

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含一个用于检测加利西亚语中性别歧视的推文和消息的语料库，来源自Twitter和Mastodon。此外，还包括使用该语料库训练的模型和用于创建语料库及训练模型的脚本。

This repository contains a corpus for detecting sexist tweets and messages in Galician, sourced from Twitter and Mastodon. Additionally, it includes models trained using this corpus, as well as scripts for creating the corpus and training the models.

创建时间：

2023-06-22

原始信息汇总

数据集概述

数据集名称

GalMisoCorpus 2023

数据集描述

Galego: 包含来自Twitter和Mastodon的推文和toots，用于检测Galician语言中的厌女症。此外，还包括使用该语料库训练的模型以及用于创建语料库和训练模型的脚本。
English: Contains a corpus of tweets and toots from Twitter and Mastodon for misogyny detection in the Galician language. Additionally, it includes the trained models with the proposed corpus and the scripts developed for creating the corpus and training the models.

数据集内容结构

/corpus: 包含用于训练的语料库，以及未预处理的语料库供研究小组使用。
/scripts: 包含在语料库创建和模型训练期间使用的脚本，以及协助数据收集和文本处理的脚本。
/models: 包含已训练的模型。

安装指南

使用requirements.txt工具安装所有依赖项。

贡献指南

欢迎通过Pull Request进行贡献。对于重大更改，请先打开一个问题以讨论您想要更改的内容。

许可证

该项目使用Mozilla许可证。详细信息请参见LICENSE。

引用方式

bib @inproceedings{alvarez-crespo-castro-2024-galician, title = "A {G}alician Corpus for Misogyny Detection Online", author = "{A}lvarez-Crespo, Luc{\i}a M. and Castro, Laura M.", editor = "Gamallo, Pablo and Claro, Daniela and Teixeira, Ant{o}nio and Real, Livy and Garcia, Marcos and Oliveira, Hugo Gon{c{c}}alo and Amaro, Raquel", booktitle = "Proceedings of the 16th International Conference on Computational Processing of Portuguese", month = mar, year = "2024", address = "Santiago de Compostela, Galicia/Spain", publisher = "Association for Computational Lingustics", url = "https://aclanthology.org/2024.propor-1.3", pages = "22--31", }

搜集汇总

数据集介绍

构建方式

GalMisoCorpus2023数据集的构建基于从Twitter和Mastodon平台收集的推文和帖子，专门用于加利西亚语中的厌女症检测。数据集的创建过程包括数据收集、文本预处理以及模型训练。研究团队开发了相应的脚本，用于数据的采集和处理，确保数据集的多样性和代表性。此外，数据集还包括了已训练的模型，这些模型基于所提出的语料库进行训练，旨在支持后续的分析和研究。

特点

GalMisoCorpus2023数据集的主要特点在于其专注于加利西亚语中的厌女症检测，填补了该领域数据集的空白。数据集不仅包含了预处理后的语料库，还提供了未处理的原始数据，以满足不同研究需求。此外，数据集附带了用于数据收集和模型训练的脚本，以及已训练的模型，便于研究人员直接使用或进一步优化。

使用方法

使用GalMisoCorpus2023数据集时，用户可以通过安装`requirements.txt`文件中的依赖项来配置环境。数据集的结构清晰，包含`/corpus`目录下的语料库、`/scripts`目录下的脚本以及`/models`目录下的已训练模型。用户可以根据研究需求选择使用预处理或未处理的语料库，并通过提供的脚本进行数据处理和模型训练。此外，数据集的引用信息已在README中提供，便于学术引用。

背景与挑战

背景概述

GalMisoCorpus2023是由Lucía M. Álvarez-Crespo和Laura M. Castro创建的，旨在为加利西亚语中的厌女症检测提供首个语料库。该数据集的构建源于对社交媒体中厌女言论的关注，尤其是在Twitter和Mastodon平台上。该研究的核心问题是如何有效识别和分类加利西亚语中的厌女言论，以促进对这一社会问题的深入理解与应对。该数据集的创建不仅填补了加利西亚语在该领域的空白，还为未来的自然语言处理研究提供了宝贵的资源。该研究成果已被第16届国际葡萄牙语计算处理会议（PROPOR 2024）接受，并已发表相关论文。

当前挑战

GalMisoCorpus2023在构建过程中面临多项挑战。首先，收集和处理来自社交媒体的厌女言论数据涉及复杂的伦理和隐私问题，尤其是在涉及Twitter等平台的敏感内容时。其次，加利西亚语作为一种小众语言，其资源相对匮乏，构建高质量的语料库需要克服语言资源不足的难题。此外，如何确保模型的准确性和鲁棒性，尤其是在处理多样化和复杂的厌女言论时，也是一个重要的技术挑战。最后，该数据集的使用必须严格遵守伦理准则和相关法律法规，以避免对社会产生负面影响。

常用场景

经典使用场景

GalMisoCorpus2023数据集的经典使用场景主要集中在基于社交媒体文本的性别歧视检测任务中。该数据集包含了从Twitter和Mastodon平台收集的推文和帖子，专门用于识别加利西亚语中的性别歧视内容。通过提供丰富的标注数据和预训练模型，研究者和开发者可以利用该数据集训练和评估性别歧视检测模型，从而提升对社交媒体中性别歧视言论的识别能力。

实际应用

在实际应用中，GalMisoCorpus2023数据集可用于开发和部署社交媒体监控工具，帮助平台管理员和政策制定者识别和处理性别歧视内容。此外，该数据集还可用于教育和培训目的，帮助用户识别和应对性别歧视言论，提升社交媒体环境的包容性和安全性。通过这些应用，该数据集为构建更加公平和尊重的在线社区提供了技术支持。

衍生相关工作

基于GalMisoCorpus2023数据集，已衍生出多项相关工作，包括但不限于性别歧视检测模型的优化、跨语言性别歧视检测方法的研究以及社交媒体内容审核策略的改进。这些工作不仅推动了加利西亚语在自然语言处理领域的应用，还为其他小众语言的性别歧视检测研究提供了参考。此外，该数据集的成功应用也激发了更多关于社交媒体伦理和内容管理的讨论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集