LesVocaux
收藏DataCite Commons2026-02-11 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/lesvocaux/v0.0.2
下载链接
链接失效反馈官方服务:
资源简介:
La version 0.0.2 contient la
totalité du corpus, soit 1196 fichiers
audio provenant des deux collectes (dont la totalité de la campagne 2021, y
compris les extraits). Ces fichiers totalisent une durée de 19h32min49sec, correspondant à plus de
240 000 tokens transcrits. Chaque fichier correspond à un vocal
authentique (sauf les extraits de la campagne 2021, identifiés comme tels dans
le nom de fichier même et dans les métadonnées). Ces 1196 vocaux constituent la
version complète finale du corpus (campagne 2021 et 2022). Certains vocaux
reçus ont été écartés de l’étude pour diverses raisons (par ex. présence d’un
autre locuteur dans l’enregistrement). Les métadonnées ont été également
enrichies par rapport à la précédente version (voir section 8).
Cette livraison inclut :
o Les fichiers audio anonymisés au
format .wav
o Le fichier des métadonnées associées
aux fichiers au format tableur (.ods, .xlsx et .csv) (voir section 8
Métadonnées)
o Les transcriptions orthographiques au
format .txt encodées en UTF8 (voir section 7 Conventions de transcription)
o Le glossaire des mots ou graphies
spécifiques au format tableur
o Une version TXM des
transcriptions orthographiques associées aux métadonnées et annotées
automatiquement en POS via la version Treetager intégrée à l’outil
d’importation TXM (attention : ces annotations ne sont pas
vérifiées et seront amenées à évoluer dans les distributions suivantes du
corpus)
o Une version compilant toutes les
transcriptions précédées des métadonnées du fichier dans un seul fichier .txt
(compatible Libre Office, Word, NotePad…). Les métadonnées ont été encodées de
manière à être exploitable dans le logiciel Lexico (format lt; … gt;)
Les fichiers .wav et .txt
portent exactement le même nom, dans lequel le premier nombre correspond à
l’identifiant locuteur, le deuxième nombre permet d’identifier de manière
unique le vocal par un numéro (IDloc_NumVocal)
Note : le corpus étant toujours en
cours d’édition, la version distribuée doit être considérée comme une version
« alpha » provisoire. Certains choix éditoriaux sont susceptibles
d’être modifiés (outre les corrections d’erreurs manifestes). Il convient
ainsi de veiller à citer explicitement la version du corpus utilisée pour toute
recherche.
Changements
depuis la version 0.0.1
La version V.0.0.1 ne contenait que
10h de données. Cette nouvelle version contient la totalité du corpus. Les
métadonnées ont été enrichies de plusieurs informations complémentaires (voir
section 8). En outre, un certain nombre de problèmes ont été corrigés pour
l’ensemble du corpus (y compris les fichiers déjà présents dans la version
précédente) :
Encodage unique du corpus en UTF8 Uniformisation des apostrophes en un même
caractère uniqueUniformisation des conventions de
transcription pour les apocopes : systématiquement transcrites sans
apostropheModification des balises (voir section 7.4)Modification des conventions de
transcription des amorces : notées par un tilde dans cette version
(anciennement notées par un tiret dans V.0.0.1)Uniformisation des conventions
orthographiques en faveur de la nouvelle orthographe, avec corrections
systématiques (en particulier pour les chiffres)
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11



