five

PayeTonCorpus

收藏
DataCite Commons2026-02-10 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/payetoncorpus/v1
下载链接
链接失效反馈
官方服务:
资源简介:
Le corpus Paye ton Corpus rassemble des témoignages d'actes sexistes, recueillis sur un ensemble de treize sites différents, auxquels sont associés une annotation permettant de caractériser ces actes sexistes. Ces sites sont des Tumblr, à l'exception de l'un d'entre eux, Paye Ta Blouse. Ils permettent de soumettre et publier anonymement des témoignages de faits relevant du sexisme. Chaque site se spécialise dans un domaine professionnel différent. Les données ont été collectées le 13 mars 2018 grâce à un moissonnage automatique sur les sites suivants : Paye Ton Taf (tout milieu professionnel confondu), Paye Ta Robe D'Avocate (domaine de la justice), Paye Ton Treillis (domaine militaire), Paye Ta Fac (domaine universitaire), Paye Ta Recherche (domaine de la recherche académique), Paye Ton Journal (domaine de la presse), Paye Ton Pourboire (domaine de l'hôtellerie et la restauration), Paye Ta Blouse (domaine hospitalier), Paye Ta Conduite (domaine des professionnel de la route), Paye Ta Truelle (domaine de l'archéologie), Paye Ton Psy, Paye Ta Police, Paye Ton Gynéco (domaine gynécologique et obstétrical). Au total, le corpus "Paye ton Corpus" contient 3021 posts et 294954 mots, pour une moyenne de 97,6 mots par post. L'annotation pour chaque post comprend d'une part une annotation réalisée manuellement, d'autre part une annotation issue du topic modeling réalisé avec MALLET (Mc Callum 2002). Ce corpus a été réalisé dans le cadre du master LITL à l'université Toulouse 2 Jean Jaurès, 2017/2018.McCallum, Andrew Kachites. "MALLET: A Machine Learning for Language Toolkit." http://mallet.cs.umass.edu. 2002.
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-10
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作