CEFC
收藏DataCite Commons2026-02-11 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/cefc-orfeo/v1.6
下载链接
链接失效反馈官方服务:
资源简介:
p { margin-bottom: 0.25cm; direction: ltr; line-height: 120%; text-align: left; }a:link { }
Le
Corpus
d'Etude pour le Français Contemporain (C.E.F.C.)
est le résultat du projet Orféo (Outils et Recherches sur le Français Écrit et Oral).Il comporte 10
millions de mots :
Un
corpus Oral de 4 millions
de
mots
constitué à partir de 14
corpus sources
contenant les transcriptions alignées texte/parole. Le corpus
rassemble sur un seul site et sous un seul format des données
enregistrées dont la transcription a été soigneusement vérifiée.
Il s’agit d’enregistrements récents de locuteurs adultes
relevant de situations de parole diverses : conversation,
interaction avec des services, prise de parole, réunion, etc. Le
C.E.F.C. comporte plus de 2500
locuteurs différents
provenant de l’ensemble
des régions de France
ainsi que de
Suisse et
de Belgique.
Un
corpus écrit de 6 millions de mots constitué à partir de 6 corpus
sources
de textes extraits de la littérature, de la presse quotidienne ou
régionale, de textes scientifiques et d’écrits non professionnels
(SMS, Blog).
L’ensemble
(textes écrits et transcriptions) a été annoté
semi-automatiquement
en lemmes,
catégories
grammaticales
(nom, verbe, adjectif, etc.) et fonctions
syntaxiques.
Les enregistrements audio sont alignés
avec le texte au niveau du mot et du phonème.
Plusieurs formats sonores sont proposés selon la qualité et le
temps de téléchargement. L’ensemble des données est en
accès
libre et téléchargeable.
La
ressource peut être exploitée en ligne au moyen des outils inclus
dans la plate-forme ou être téléchargée pour traitement par des
outils personnels. Des guides exposant les principes de segmentation
et d’annotation accompagnent la ressource.
p { margin-bottom: 0.25cm; direction: ltr; line-height: 120%; text-align: left; }a:link {ORFEO
est le résultat d’un projet (ANR
12-CORP-0005)
financé par l’Agence Nationale de la Recherche dans le cadre
de la campagne Corpus, Données et Outils de la Recherche en Sciences
Humaines et Sociales 2011.
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11



