Corpus ANR TALAD
收藏DataCite Commons2026-02-10 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/corpus-anr-talad/v1
下载链接
链接失效反馈官方服务:
资源简介:
Le Corpus ANR TALAD a été créé dans le cadre du projet ANR 17-CE38-0012, Programme PRCE 2017. Les enjeux du projets ont été élaborés en lien avec l’entreprise Reticular Project, qui a conçu un système d’information nommé Verbatim qui a fourni quotidiennement pendant environ 18 mois à ses abonnés les verbatims des interviews politiques matinales des principaux médias audiovisuels (Europe 1, RTL, France Inter, LCI, Cnews, France Info, BFMTV, Public Sénat, Radio Classique, RFI, France 2 Télématin). Ces enregistrements audios quotidiens composent le corpus de TALAD. Parmi les tâches menées pendant le projet, les nominations apparaissant dans des documents oraux (interviews) ont été annotées selon le modèle linguistique proposé par Agata Jackiewicz et Nadia Bebeshina.Ce corpus compte 445 interviews annotées. Parmi les interviews, 180 personnalités différentes échangent avec un journaliste. Les interviews ont été enregistrées entre juin 2016 et Mars 2018 avec 775 tours de paroles (en incluant les tours des journalistes)Dans l’ensemble du corpus on trouve 10085 tokens, 6963 types (tokens uniques) et 4732 lemmes. 901 nominations ont été annotées.Le fichier ‘corpus_nominations_annoté.xml’ contient l’ensemble du corpus avec le texte brut, non annoté au format xml-TEI.Le fichier ‘corpus_nominations_annoté_tei.xml’ contient l’ensemble des textes avec des balises délimitant les éléments annotés ainsi que les annotations éléments en standOff à la fin. Le fichier est encodé au format xml TEI égalementLe fichier ‘schema_corpus_nominations.rng’ contient le schéma XML RNG des deux fichiers précédents.
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-10



