PayeTonCorpus
收藏DataCite Commons2026-02-10 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/payetoncorpus/v1
下载链接
链接失效反馈官方服务:
资源简介:
Le corpus Paye ton Corpus rassemble des témoignages d'actes sexistes, recueillis sur un ensemble de treize sites différents, auxquels sont associés une annotation permettant de caractériser ces actes sexistes. Ces sites sont des Tumblr, à l'exception de l'un d'entre eux, Paye Ta Blouse. Ils permettent de soumettre et publier anonymement des témoignages de faits relevant du sexisme. Chaque site se spécialise dans un domaine professionnel différent.
Les données ont été collectées le 13 mars 2018 grâce à un moissonnage automatique sur les sites suivants :
Paye Ton Taf (tout milieu professionnel confondu),
Paye Ta Robe D'Avocate (domaine de la justice),
Paye Ton Treillis (domaine militaire),
Paye Ta Fac (domaine universitaire),
Paye Ta Recherche (domaine de la recherche académique),
Paye Ton Journal (domaine de la presse),
Paye Ton Pourboire (domaine de l'hôtellerie et la restauration),
Paye Ta Blouse (domaine hospitalier),
Paye Ta Conduite (domaine des professionnel de la route),
Paye Ta Truelle (domaine de l'archéologie),
Paye Ton Psy,
Paye Ta Police,
Paye Ton Gynéco (domaine gynécologique et obstétrical).
Au total, le corpus "Paye ton Corpus" contient 3021 posts et 294954 mots, pour une moyenne de 97,6 mots par post. L'annotation pour chaque post comprend d'une part une annotation réalisée manuellement, d'autre part une annotation issue du topic modeling réalisé avec MALLET (Mc Callum 2002). Ce corpus a été réalisé dans le cadre du master LITL à l'université Toulouse 2 Jean Jaurès, 2017/2018.McCallum, Andrew Kachites. "MALLET: A Machine Learning for Language Toolkit."
http://mallet.cs.umass.edu. 2002.
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-10



