Corpus 3DSeTwitch – Un corpus tridimensionnel annoté pour les phénomènes sexistes. Version 1.0
收藏DataCite Commons2026-02-11 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/3dsetwitch/v1
下载链接
链接失效反馈官方服务:
资源简介:
DescriptionLe corpus 3DSeTwitch, développé dans le cadre du projet OLiNDiNUM (Observatoire LINguistique du DIscours NUMérique),
est un jeu de données multimodal composé de 47 streams francophones
(222 heures, 10 minutes et 46 secondes) issus de 20 chaînes Twitch
populaires (10 streamers et 10 streameuses), actives entre octobre 2021
et avril 2022. Le corpus aligne les productions orales des streamer·euses
avec les messages du chat en direct afin de permettre une analyse
intégrée.Objectif de la rechercheLe corpus a été conçu pour soutenir l’identification et l’analyse des
discours de haine sexistes et pour étudier la manière dont ces discours
circulent sur la plateforme Twitch.tv.@font-face
{font-family:"Cambria Math";
panose-1:2 4 5 3 5 4 6 3 2 4;
mso-font-charset:0;
mso-generic-font-family:roman;
mso-font-pitch:variable;
mso-font-signature:-536870145 1107305727 0 0 415 0;}@font-face
{font-family:Calibri;
panose-1:2 15 5 2 2 2 4 3 2 4;
mso-font-charset:0;
mso-generic-font-family:swiss;
mso-font-pitch:variable;
mso-font-signature:-469750017 -1040178053 9 0 511 0;}p.MsoNormal, li.MsoNormal, div.MsoNormal
{mso-style-unhide:no;
mso-style-qformat:yes;
mso-style-parent:"";
margin:0cm;
mso-pagination:widow-orphan;
font-size:12.0pt;
font-family:"Calibri",sans-serif;
mso-ascii-font-family:Calibri;
mso-ascii-theme-font:minor-latin;
mso-fareast-font-family:Calibri;
mso-fareast-theme-font:minor-latin;
mso-hansi-font-family:Calibri;
mso-hansi-theme-font:minor-latin;
mso-bidi-font-family:"Times New Roman";
mso-bidi-theme-font:minor-bidi;
mso-font-kerning:1.0pt;
mso-ligatures:standardcontextual;
mso-fareast-language:EN-US;}a:link, span.MsoHyperlink
{mso-style-priority:99;
color:#0563C1;
mso-themecolor:hyperlink;
text-decoration:underline;
text-underline:single;}a:visited, span.MsoHyperlinkFollowed
{mso-style-noshow:yes;
mso-style-priority:99;
color:#954F72;
mso-themecolor:followedhyperlink;
text-decoration:underline;
text-underline:single;}.MsoChpDefault
{mso-style-type:export-only;
mso-default-props:yes;
font-family:"Calibri",sans-serif;
mso-ascii-font-family:Calibri;
mso-ascii-theme-font:minor-latin;
mso-fareast-font-family:Calibri;
mso-fareast-theme-font:minor-latin;
mso-hansi-font-family:Calibri;
mso-hansi-theme-font:minor-latin;
mso-bidi-font-family:"Times New Roman";
mso-bidi-theme-font:minor-bidi;
mso-fareast-language:EN-US;}div.WordSection1
{page:WordSection1;}Méthodologie@font-face
{font-family:"Cambria Math";
panose-1:2 4 5 3 5 4 6 3 2 4;
mso-font-charset:0;
mso-generic-font-family:roman;
mso-font-pitch:variable;
mso-font-signature:-536870145 1107305727 0 0 415 0;}@font-face
{font-family:Calibri;
panose-1:2 15 5 2 2 2 4 3 2 4;
mso-font-charset:0;
mso-generic-font-family:swiss;
mso-font-pitch:variable;
mso-font-signature:-469750017 -1040178053 9 0 511 0;}p.MsoNormal, li.MsoNormal, div.MsoNormal
{mso-style-unhide:no;
mso-style-qformat:yes;
mso-style-parent:"";
margin:0cm;
mso-pagination:widow-orphan;
font-size:12.0pt;
font-family:"Calibri",sans-serif;
mso-ascii-font-family:Calibri;
mso-ascii-theme-font:minor-latin;
mso-fareast-font-family:Calibri;
mso-fareast-theme-font:minor-latin;
mso-hansi-font-family:Calibri;
mso-hansi-theme-font:minor-latin;
mso-bidi-font-family:"Times New Roman";
mso-bidi-theme-font:minor-bidi;
mso-font-kerning:1.0pt;
mso-ligatures:standardcontextual;
mso-fareast-language:EN-US;}.MsoChpDefault
{mso-style-type:export-only;
mso-default-props:yes;
font-family:"Calibri",sans-serif;
mso-ascii-font-family:Calibri;
mso-ascii-theme-font:minor-latin;
mso-fareast-font-family:Calibri;
mso-fareast-theme-font:minor-latin;
mso-hansi-font-family:Calibri;
mso-hansi-theme-font:minor-latin;
mso-bidi-font-family:"Times New Roman";
mso-bidi-theme-font:minor-bidi;
mso-fareast-language:EN-US;}div.WordSection1
{page:WordSection1;Sélection des donnéesLes streamers ont été sélectionnés sur la base de leur popularité à l’aide des outils statistiques Sullygnome et Twitch Stat’s. Les streameuses ont été aussi sélectionnées sur la base de leur popularité à partir du classement de la plateforme Influenzzz. Pour chaque groupe, des critères de popularité ont été appliqués (≥ 100 000 vues pour les streamers ; ≥ 10 000 vues pour les streameuses), avec un maximum de 5 streams par chaîne. Les VOD ont été sélectionnées selon leur disponibilité sur la période.Extraction et traitement des donnéesLes données ont été extraites à l’aide de TwitchDownloader. Chaque vidéo (format .mp4) et son chat (formats .json et .txt) ont été sauvegardés.Ensuite, l’outil développé par Steven Coats (2024) a été utilisé pour :Transcrire automatiquement l’audio avec WhisperX (Radford et al., 2022) ;Aligner les données en HTML structurés en 4 colonnes : horodatage, transcription orale, pseudonyme des utilisateur·ice, message du chat ;Générer un graphique .png indiquant la densité de parole des streamers·euses et d’activité du chat par minute.@font-face
{font-family:Wingdings;
panose-1:5 0 0 0 0 0 0 0 0 0;
mso-font-charset:77;
mso-generic-font-family:decorative;
mso-font-pitch:variable;
mso-font-signature:3 0 0 0 -2147483647 0;}@font-face
{font-family:"Cambria Math";
panose-1:2 4 5 3 5 4 6 3 2 4;
mso-font-charset:0;
mso-generic-font-family:roman;
mso-font-pitch:variable;
mso-font-signature:-536870145 1107305727 0 0 415 0;}@font-face
{font-family:Calibri;
panose-1:2 15 5 2 2 2 4 3 2 4;
mso-font-charset:0;
mso-generic-font-family:swiss;
mso-font-pitch:variable;
mso-font-signature:-469750017 -1040178053 9 0 511 0;}p.MsoNormal, li.MsoNormal, div.MsoNormal
{mso-style-unhide:no;
mso-style-qformat:yes;
mso-style-parent:"";
margin:0cm;
mso-pagination:widow-orphan;
font-size:12.0pt;
font-family:"Calibri",sans-serif;
mso-ascii-font-family:Calibri;
mso-ascii-theme-font:minor-latin;
mso-fareast-font-family:Calibri;
mso-fareast-theme-font:minor-latin;
mso-hansi-font-family:Calibri;
mso-hansi-theme-font:minor-latin;
mso-bidi-font-family:"Times New Roman";
mso-bidi-theme-font:minor-bidi;
mso-font-kerning:1.0pt;
mso-ligatures:standardcontextual;
mso-fareast-language:EN-US;}p.MsoListParagraph, li.MsoListParagraph, div.MsoListParagraph
{mso-style-priority:34;
mso-style-unhide:no;
mso-style-qformat:yes;
margin-top:0cm;
margin-right:0cm;
margin-bottom:0cm;
margin-left:36.0pt;
mso-add-space:auto;
mso-pagination:widow-orphan;
font-size:12.0pt;
font-family:"Calibri",sans-serif;
mso-ascii-font-family:Calibri;
mso-ascii-theme-font:minor-latin;
mso-fareast-font-family:Calibri;
mso-fareast-theme-font:minor-latin;
mso-hansi-font-family:Calibri;
mso-hansi-theme-font:minor-latin;
mso-bidi-font-family:"Times New Roman";
mso-bidi-theme-font:minor-bidi;
mso-font-kerning:1.0pt;
mso-ligatures:standardcontextual;
mso-fareast-language:EN-US;}p.MsoListParagraphCxSpFirst, li.MsoListParagraphCxSpFirst, div.MsoListParagraphCxSpFirst
{mso-style-priority:34;
mso-style-unhide:no;
mso-style-qformat:yes;
mso-style-type:export-only;
margin-top:0cm;
margin-right:0cm;
margin-bottom:0cm;
margin-left:36.0pt;
mso-add-space:auto;
mso-pagination:widow-orphan;
font-size:12.0pt;
font-family:"Calibri",sans-serif;
mso-ascii-font-family:Calibri;
mso-ascii-theme-font:minor-latin;
mso-fareast-font-family:Calibri;
mso-fareast-theme-font:minor-latin;
mso-hansi-font-family:Calibri;
mso-hansi-theme-font:minor-latin;
mso-bidi-font-family:"Times New Roman";
mso-bidi-theme-font:minor-bidi;
mso-font-kerning:1.0pt;
mso-ligatures:standardcontextual;
mso-fareast-language:EN-US;}p.MsoListParagraphCxSpMiddle, li.MsoListParagraphCxSpMiddle, div.MsoListParagraphCxSpMiddle
{mso-style-priority:34;
mso-style-unhide:no;
mso-style-qformat:yes;
mso-style-type:export-only;
margin-top:0cm;
margin-right:0cm;
margin-bottom:0cm;
margin-left:36.0pt;
mso-add-space:auto;
mso-pagination:widow-orphan;
font-size:12.0pt;
font-family:"Calibri",sans-serif;
mso-ascii-font-family:Calibri;
mso-ascii-theme-font:minor-latin;
mso-fareast-font-family:Calibri;
mso-fareast-theme-font:minor-latin;
mso-hansi-font-family:Calibri;
mso-hansi-theme-font:minor-latin;
mso-bidi-font-family:"Times New Roman";
mso-bidi-theme-font:minor-bidi;
mso-font-kerning:1.0pt;
mso-ligatures:standardcontextual;
mso-fareast-language:EN-US;}p.MsoListParagraphCxSpLast, li.MsoListParagraphCxSpLast, div.MsoListParagraphCxSpLast
{mso-style-priority:34;
mso-style-unhide:no;
mso-style-qformat:yes;
mso-style-type:export-only;
margin-top:0cm;
margin-right:0cm;
margin-bottom:0cm;
margin-left:36.0pt;
mso-add-space:auto;
mso-pagination:widow-orphan;
font-size:12.0pt;
font-family:"Calibri",sans-serif;
mso-ascii-font-family:Calibri;
mso-ascii-theme-font:minor-latin;
mso-fareast-font-family:Calibri;
mso-fareast-theme-font:minor-latin;
mso-hansi-font-family:Calibri;
mso-hansi-theme-font:minor-latin;
mso-bidi-font-family:"Times New Roman";
mso-bidi-theme-font:minor-bidi;
mso-font-kerning:1.0pt;
mso-ligatures:standardcontextual;
mso-fareast-language:EN-US;}.MsoChpDefault
{mso-style-type:export-only;
mso-default-props:yes;
font-family:"Calibri",sans-serif;
mso-ascii-font-family:Calibri;
mso-ascii-theme-font:minor-latin;
mso-fareast-font-family:Calibri;
mso-fareast-theme-font:minor-latin;
mso-hansi-font-family:Calibri;
mso-hansi-theme-font:minor-latin;
mso-bidi-font-family:"Times New Roman";
mso-bidi-theme-font:minor-bidi;
mso-fareast-language:EN-US;}div.WordSection1
{page:WordSection1;}ol
{margin-bottom:0cm;}ul
{margin-bottom:0cm;}Structure du corpusLe corpus est organisé en deux sous-dossiers (‘F-all-3dSeTwitch’ pour les streameuses, ‘M-all-3dSeTwitch’ pour les streamers), chacun contenant un dossier par chaîne. Chaque stream comprend :un fichier .html (transcription alignée parole/chat) ;un fichier .png (graphique de densité).Un fichier Excel centralise les métadonnées des chaînes et des lives.Version 1.0 : Ce corpus contient uniquement des données brutes. Aucune annotation n’a été réalisée à ce stade. Une future version inclura des annotations sur les phénomènes sexistes.Utilisation, accès et cadre juridiqueUtilisation et accèsCe corpus a été constitué à des fins de recherche scientifique. Il est diffusé sous la licence Creative Commons CC-BY-NC-SA 4.0 :https://creativecommons.org/licenses/by-nc-sa/4.0/. Cela signifie que sa réutilisation est autorisée à des fins non commerciales, à condition de citer les autrices et de partager les dérivés sous la même licence.Le corpus est librement accessible aux membres de l’Enseignement Supérieur et de la Recherche (ESR) via Ortolang. Pour toute autre demande motivée, vous pouvez écrire à : arobert@unisa.itSeules les transcriptions (parole et messages du chat) sont diffusées. Les vidéos originales ne sont pas redistribuées, à l'exception des vidéos associées aux streams d’Ultia, qui ne sont pas publiées directement, mais peuvent être fournies sur demande motivée à l’adresse ci-dessus.Droit d'auteurLes streamer·euses sont considéré·es comme des personnalités publiques. Leur parole a été captée dans un espace numérique ouvert. Ce traitement s’inscrit dans le cadre de l’exception au droit d’auteur à des fins de recherche (art. L122-5 CPI, directive 2019/790/UE, art. 3). Toute personne souhaitant faire valoir un droit de retrait peut en faire la demande motivée à l’adresse ci-dessus. Les demandes seront examinées dans le respect de la réglementation en vigueur (droit d’auteur, RGPD).Protection des données personnelles (RGPD)
Les noms d’utilisateurs du chat ont été pseudonymisés.
Chaque pseudonyme a été remplacé par un identifiant générique non signifiant :Broadcaster (streamer·euse)User + numéro (spectateur·rice)Modo + numéro (modérateur·rice ou bot)
Les mentions directes (ex. @pseudo) ont également été modifiées.
Aucune tentative de réidentification ne sera entreprise. Le traitement respecte l’article 89 du RGPD relatif à la recherche scientifique.Références citéesCoats, S. (2024). A framework for analysis of speech and chat content in YouTube and Twitch streams. In Céline Poudat and Mathilde Guernut (eds.), Proceedings of the 11th Conference on CMC and Social Media Corpora for the Humanities, 16–19. Nice, France: CORLI.Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., amp; Sutskever, I. (2022). Robust speech recognition via large-scale weak supervision. arXiv:2212.04356 [eess.AS]. https://doi.org/10.48550/arXiv.2212.04356 @font-face
{font-family:"Cambria Math";
panose-1:2 4 5 3 5 4 6 3 2 4;
mso-font-charset:0;
mso-generic-font-family:roman;
mso-font-pitch:variable;
mso-font-signature:-536870145 1107305727 0 0 415 0;}@font-face
{font-family:Calibri;
panose-1:2 15 5 2 2 2 4 3 2 4;
mso-font-charset:0;
mso-generic-font-family:swiss;
mso-font-pitch:variable;
mso-font-signature:-469750017 -1040178053 9 0 511 0;}p.MsoNormal, li.MsoNormal, div.MsoNormal
{mso-style-unhide:no;
mso-style-qformat:yes;
mso-style-parent:"";
margin:0cm;
mso-pagination:widow-orphan;
font-size:12.0pt;
font-family:"Calibri",sans-serif;
mso-ascii-font-family:Calibri;
mso-ascii-theme-font:minor-latin;
mso-fareast-font-family:Calibri;
mso-fareast-theme-font:minor-latin;
mso-hansi-font-family:Calibri;
mso-hansi-theme-font:minor-latin;
mso-bidi-font-family:"Times New Roman";
mso-bidi-theme-font:minor-bidi;
mso-font-kerning:1.0pt;
mso-ligatures:standardcontextual;
mso-fareast-language:EN-US;}a:link, span.MsoHyperlink
{mso-style-priority:99;
color:#0563C1;
mso-themecolor:hyperlink;
text-decoration:underline;
text-underline:single;}a:visited, span.MsoHyperlinkFollowed
{mso-style-noshow:yes;
mso-style-priority:99;
color:#954F72;
mso-themecolor:followedhyperlink;
text-decoration:underline;
text-underline:single;}.MsoChpDefault
{mso-style-type:export-only;
mso-default-props:yes;
font-family:"Calibri",sans-serif;
mso-ascii-font-family:Calibri;
mso-ascii-theme-font:minor-latin;
mso-fareast-font-family:Calibri;
mso-fareast-theme-font:minor-latin;
mso-hansi-font-family:Calibri;
mso-hansi-theme-font:minor-latin;
mso-bidi-font-family:"Times New Roman";
mso-bidi-theme-font:minor-bidi;
mso-fareast-language:EN-US;}div.WordSection1
{page:WordSection1;}
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11



