WikiDisc
收藏DataCite Commons2026-02-10 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/wikidisc/v1
下载链接
链接失效反馈官方服务:
资源简介:
p.sdfootnote-western { margin-left: 0.6cm; text-indent: -0.6cm; margin-bottom: 0cm; font-family: "Calibri Light", sans-serif; font-size: 10pt; line-height: 100%; text-align: left; page-break-before: auto; }p.sdfootnote-cjk { margin-left: 0.6cm; text-indent: -0.6cm; margin-bottom: 0cm; font-size: 10pt; line-height: 100%; text-align: left; page-break-before: auto; }p.sdfootnote-ctl { margin-left: 0.6cm; text-indent: -0.6cm; margin-bottom: 0cm; font-size: 10pt; line-height: 100%; text-align: left; page-break-before: auto; }p { margin-bottom: 0.25cm; direction: inherit; line-height: 120%; text-align: justify; }p.western { font-family: "Calibri Light", sans-serif; }p.cjk { font-size: 10pt; }a:link { }a.sdfootnoteanc { font-size: 57%; }
Le corpus WikiDiscussion a été
constitué par Lydia-Mai Ho-Dac et Veronika Laippala afin de
caractériser le genre « discussion » en étudiant les
caractéristiques des discussions Wikipédia [Ho-Dac amp; Laippala, 2017].
Les données ont été extraites de la
Wikipedia francophone, avant de subir une évaluation afin de
vérifier le bon déroulement de l’extraction automatique. Le
corpus est disponible au format XML, encodé selon la norme TEI-P5.
Un travail de correction de la structure et vérification de la
comptabilité avec cette norme a été effectué dans le cadre d’un
stage financé par le consortium CORLI – ILF. La documentation mise en annexe est le résultat de ce stage qui a été réalisé par Anouk Birski, alors étudiante en 2e année de Master mention Sciences du Langage, parcours LITL (Linguistique Informatique, Technologies du Langage) de l'Université Toulouse Jean Jaurès.Suite à cette première version, constituée en 2015, une nouvelle version a été constituée en 2018. Elle contient les discussions de la version du 20/10/2018 de Wikipedia française. L'extraction a été réalisée automatiquement depuis l'archive récupérée sur le dépôt officiel : https://dumps.wikimedia.org/frwiki/20181020/, fichier frwiki-20181020-pages-meta-current.xml.bz2 (./frwiki-20181020-pages-meta-current.xml.bz2, taille : 6Go). La procédure d'extraction a été améliorée et complétée de la détection automatique des signatures des locuteurs.Vous trouverez ci-dessous un accès à différentes versions et sous-corpus (éviter de télécharger toute la ressource qui contient la version 2015 et la version 2018)Un fichier WikiDisc2018_README.txt (disponible dans l'aperçu) décrit le contenu des fichiers mis à disposition pour les différents sous-corpus.Chaque page de discussion donne lieu à un fichier XML encodée selon la norme TEI-P5 où chaque fil de discussion (sections de page) est délimité par l'élément lt;divgt; contenant généralement un titre de fil (lt;headgt;) et au moins un message (lt;postgt;) qui peut être signé et daté.Extrait :
lt;div id="5" level="1" type="thread"gt; lt;headgt;Nouvel articlelt;/headgt; lt;post id="18" indentLevel="0" num="1" when="2005-09-19T00:13" who="Nojhan"gt; lt;p id="1"gt; J'ai appliqué la nouvelle organisation décidée sur Discuter:Race_%28anthropologie_physique%29R.C3.A9sultat_du_sondage. Pour ce faire, j'ai fusionné les deux articles existant Race (anthropologie physique) et Histoire du concept de race dans l'espèce humaine. Pour ce faire j'ai opté pour une organisation chronologique, se terminant sur l'état actuel des connaissances. J'ai complétement re-rédigé la partie « aujourd'hui », qui manquait sérieusement de rigueur et de sources. J'ai laissé un certains nombre de choses de cotés, vous en retrouverez la trace sur la page Utilisateur:Nojhan/Reste de race humaine si vous souhaitez les réintégrer. Merci d'être indulgent, c'est un travail assez long qui n'est sûrement pas exempt de défauts. — lt;signedgt; lt;ref target="https://fr.wikipedia.org/wiki/Nojhan"gt;lt;namegt;Nojhanlt;/namegt;lt;/refgt; NoJhan ♥! lt;dategt;19 septembre 2005 à 00:13 (CEST)lt;/dategt; lt;/signedgt; lt;/pgt; lt;/postgt; lt;post id="19" indentLevel="1" num="2" when="2005-09-22T14:52" who="Gem"gt; lt;p id="1"gt; Il n'y a pas de raison d'être indulgent, je trouve que c'est du très bon travail, qui dégage une impression claire et cohérente, et très solide. L'ensemble se lit très bien. J'ai parcouru les scories de la fusion ressemblé dans Utilisateur:Nojhan/Reste de race humaine, je n'ai rien vu d'important qui manquerait, par contre j'ai vu pas mal de truc qui ne ferait que doublons. Bref, je trouve que c'est toujours perfectible, évidemment, mais très bien. lt;signedgt; lt;ref target="https://fr.wikipedia.org/wiki/Gem"gt;lt;namegt;Gemlt;/namegt;lt;/refgt; gem lt;dategt;22 septembre 2005 à 14:52 (CEST)lt;/dategt; lt;/signedgt; lt;/pgt; lt;/postgt; lt;post id="20" indentLevel="2" num="3" when="2005-09-22T16:47" who="Nojhan"gt; lt;p id="1"gt; Merci, mais je pense qu'on peut peut-être rajouter un paragraphe sur les concepts évolutionnistes. Je verrais bien un recadrage de la spéciation, notamment, par rapport à la notion de race. Il y a un peu de matière dans les restes pour ça (notamment quelques passages sur Gould). Si quelqu'un veut me filer un coup de main... — lt;signedgt; lt;ref target="https://fr.wikipedia.org/wiki/Nojhan"gt;lt;namegt;Nojhanlt;/namegt;lt;/refgt; NoJhan ♥! lt;dategt;22 septembre 2005 à 16:47 (CEST)lt;/dategt; lt;/signedgt; lt;/pgt; lt;/postgt;lt;/divgt;Chaque page de discussion est associé à un ensemble de métadonnées encodées dans le teiHeader, comme l'illustre un exemple d'élément lt;classDeclgt; :
lt;classDeclgt; lt;taxonomygt; lt;biblgt;All the category informations are those occurring in the header of the talk pagelt;/biblgt; lt;category type="genre"gt; lt;catDesc type="main"gt;discussionlt;/catDescgt; lt;catDesc type="sub"gt;Wikipedia talk pagelt;/catDescgt; lt;/categorygt; lt;category type="Wikipedia article portal"gt; lt;catDescgt;,,,,,,,,,,,lt;/catDescgt; lt;/categorygt; lt;category type="discipline"gt; lt;catDescgt;Sociologielt;/catDescgt; lt;catDescgt;Anthropologielt;/catDescgt; lt;/categorygt; lt;category type="grade"gt; lt;catDescgt;BDlt;/catDescgt; lt;/categorygt; lt;category info="articleChantier" type="other"gt; lt;catDescgt;{{todo}}lt;/catDescgt; lt;/categorygt; lt;category info="problem" type="other"gt; lt;catDescgt;{{Controversé}}lt;/catDescgt; lt;/categorygt; lt;category info="WPisNot" type="other"gt; lt;catDescgt;{{Avertissement hors sujet}}lt;/catDescgt; lt;/categorygt; lt;/taxonomygt; lt;/classDeclgt;
Chaque discussion correspond à un fichier xml intitulé selon l'identifiant fourni dans le dump Wikipedia.Une liste complète des pages de discussion (id et titre associé) est fournie dans le fichier tableCount_wikiDisc2018.csv (accessible via l'aperçu) qui peut être utilisée pour chercher des pages de discussion particulière et indique pour chaque page de discussion :
1- son id2- le titre de la page de discussion3- le nombre de fils (lt;divgt;)4- le nombre de messages (lt;postgt;)5- le nombre de mots6- la profondeur du niveau d'interaction7- le nombre de contributeurs différents8- le nombre de contributeurs anonymes9- le nombre de contributeursrobots10- le nombre de messages non signés 11- le type de page de discussion (courante, archive, etc.)12- le titre de l'article associé (1 article peut avoir plusieurs pages de discussion associées : 1 courante, 2 archives, 1 page parallèle dédiée à des problèmes de neutralité, etc.)13- le rang de l'article (A-class, ébauche, etc.)14-24 les 11 champs suivants indiquent à quel(s) portail(s) appartient l'article parmi les 11 portails principaux de Wikipedia (t.q. énumérés ici :
https://fr.wikipedia.org/wiki/Portail:Accueil) : Art · Géographie ·
Histoire · Loisir · Médecine · Politique · Religion · Sciences · Société
· Sport · Technologie25- si l'article provient d'une traduction26- si une bannière indique qu'il y a eu des harcèlements et aggressions dans la construction de l'article27- si l'article est une ébauche28- si un jugement quelconque est indiqué en en-tête de la discussion 29- si un problème quelconque est indiqué en en-tête de la discussion30- si la page de discussion est une archive31- si il y a eu des débats sur le fait de conserver ou supprimer l'article (mentionné en en-tête de la discussion)32- si un problème de copyrights est indiqué en en-tête de la discussion33- si un problème p.r. à la politique WIkipédia est indiqué en en-tête de la discussion34- si l'article appartient à un projet WIkipédia35- si l'article a été sélectionné pour faire partie de Wikipedia v1.0 (projet d'édition d'un version stable et offline de Wikipedia)
Est également fourni le fichier
tableAuteurs_wikiDisc2018.csv (accessible via l'aperçu) qui indique pour chaque discussion le nom de tous les contributeurs et le nombre de messages postés par chacun dans la page de discussion.
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-10



