five

Corpus journalistique issu de l'Est Républicain

收藏
DataCite Commons2026-02-10 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/est_republicain/v4
下载链接
链接失效反馈
官方服务:
资源简介:
Dans le cadre d'un accord de collaboration avec la société du journal L'Est Républicain (ISSN 1760-4958, CPPAP 0515 Y 90438), ORTOLANG offre après en avoir assuré le traitement informatique, l'accès à un nouveau corpus de type journalistique. Ce corpus est constitué des données textuelles correspondant à deux années de toutes les éditions intégrales du quotidien régional.Dans un premier temps, ORTOLANG a mis à disposition de la communauté les années 1999 à 2003.La nouvelle version est enrichie avec les années 2006 à 2011. Cette version contient également la variante vosgienne de l'Est Républicain, Vosges Matin.Une nouvelle version propose le corpus étiqueté en syntaxe. Ces annotations réalisées par Franck Sajous du CLLE-ERSS ont été réalisées de la façon suivante:1) extraction du texte, en ne gardant que : - la date - le balisage des titres (balise head) 2) analyse syntaxique avec Talismane (Urieli, 2013) version 4.1.0, avec les paramètres : largeur du faisceau = 5, avec propagation. Le calcul a été fait sur le cluster Osirim de l'IRIT. Cette plateforme est soutenue par le CNRS, la région Midi-Pyrénées, le gouvernement français, et le FEDER.
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-10
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作