EFG_WikiCorpus -- discussions en coulisse de Wikipedia (anglais, français, allemand)
收藏DataCite Commons2026-02-11 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/efg-wikicorpus/v1
下载链接
链接失效反馈官方服务:
资源简介:
Le WikiCorpus EFG est un corpus composé de toutes les pages de discussion liées à la (co)rédaction d'un article dans les Wikipédias anglaise, française et allemande au 1er août 2019.
Les pages de discussion sont extraites des dumps de/en/fr du 1er août 2019 (enwiki-20190801-pages-meta-current.xml, frwiki-20190801-pages-meta-current.xml, dewiki-20190801-pages-meta-current.xml) et encodées selon le schéma TEI CMC-core (Beißwenger et Lüngen 2020, https://tei-c.org/release/doc/tei-p5-doc/en/html/CMC.html). Toutes les pages de discussion (versions actuelles et archivées) contenant au moins 1 message (ou fil de discussion) et 2 mots ont été extraites.
Le EFG_WikiCorpus est composé de plus de 3,3 millions de pages de discussion, 2 milliards de mots, près de 10 millions de fils de discussion et 30 millions de messages. Plus de détails sont donnés dans la description en version anglaise et dans Ho-Dac (2024).
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11



