five

CoLATeP

收藏
DataCite Commons2026-02-10 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/colatep/v1
下载链接
链接失效反馈
官方服务:
资源简介:
Le corpus CoLATeP ("Corpus Libre et Annoté de Textes Procéduraux") rassemble des textes procéduraux issus de deux sites web qui proposent un ensemble de tutoriels écrits en français et destinés au grand public (réparation d’objets, activités quotidiennes). Ces textes sont annotés de façon à ce qu’il soit possible de retrouver facilement les éléments qui les composent. Ainsi, les portions de textes sont caractérisées selon qu'elles indiquent une instruction, un avertissement, un conseil ou un rappel. Le corpus contient 70 721 procédures, pour un total de 64,13 millions de mots. Les textes procéduraux ont été téléchargés en Septembre 2021 au format HTML via les sitemaps des sites iFixit et wikiHow, puis transformés au format XML TEI-P5 pour constituer le corpus. Ce corpus, disponible sous la licence Creative Commons BY-NC-SA 3.0, a été réalisé dans le cadre du Master Sciences du Langage LITL (Linguistique, Informatique et Technologies du Langage) 2 à l’Université Toulouse Jean-Jaurès (année universitaire 2020/2021).Le corpus est composé de deux sous-corpus qui contiennent les textes procéduraux issus des sites wikiHow et iFixit (versions françaises). Le sous-corpus wikiHow est lui-même subdivisé en 77 sous-corpus relevant des 76 catégories et sous-catégories thématiques distinguées dans wikiHow plus une catégorie contenant 109 textes "sans catégorie" (https://fr.wikihow.com/Sp%C3%A9cial:CategoryListing). Nous fournissons également une version du corpus annotée par Stanza (étiquetage mophosyntaxique, lemmatisation et analyse en dépendances).
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-10
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作