CEFC
收藏DataCite Commons2026-02-11 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/cefc-orfeo/v1.3
下载链接
链接失效反馈官方服务:
资源简介:
p { margin-bottom: 0.25cm; direction: ltr; line-height: 120%; text-align: left; }a:link { }
Le
Corpus
d'Etude pour le Français Contemporain (C.E.F.C.)
est le résultat du projet Orféo (Outils et Recherches sur le Français Écrit et Oral).Il comporte 10
millions de mots :
Un
corpus Oral de 4 millions
de
mots
constitué à partir de 14
corpus sources
contenant les transcriptions alignées texte/parole. Le corpus
rassemble sur un seul site et sous un seul format des données
enregistrées dont la transcription a été soigneusement vérifiée.
Il s’agit d’enregistrements récents de locuteurs adultes
relevant de situations de parole diverses : conversation,
interaction avec des services, prise de parole, réunion, etc. Le
C.E.F.C. comporte plus de 2500
locuteurs différents
provenant de l’ensemble
des régions de France
ainsi que de
Suisse et
de Belgique.
Un
corpus écrit de 6 millions de mots constitué à partir de 6 corpus
sources
de textes extraits de la littérature, de la presse quotidienne ou
régionale, de textes scientifiques et d’écrits non professionnels
(SMS, Blog).
L’ensemble
(textes écrits et transcriptions) a été annoté
semi-automatiquement
en lemmes,
catégories
grammaticales
(nom, verbe, adjectif, etc.) et fonctions
syntaxiques.
Les enregistrements audio sont alignés
avec le texte au niveau du mot et du phonème.
Plusieurs formats sonores sont proposés selon la qualité et le
temps de téléchargement. L’ensemble des données est en
accès
libre et téléchargeable.
La
ressource peut être exploitée en ligne au moyen des outils inclus
dans la plate-forme ou être téléchargée pour traitement par des
outils personnels. Des guides exposant les principes de segmentation
et d’annotation accompagnent la ressource.
p { margin-bottom: 0.25cm; direction: ltr; line-height: 120%; text-align: left; }a:link {ORFEO
est le résultat d’un projet (ANR
12-CORP-0005)
financé par l’Agence Nationale de la Recherche dans le cadre
de la campagne Corpus, Données et Outils de la Recherche en Sciences
Humaines et Sociales 2011.
当代法语研究语料库(Corpus d'Etude pour le Français Contemporain,以下简称CEFC)是Orféo项目(Outils et Recherches sur le Français Écrit et Oral,即书面与口语法语工具与研究项目)的研究成果。该语料库总规模达1000万词:其一为400万词的口语语料库,源自14个包含文本-语音对齐转录的源语料库。该语料库将经过严格核验的录音数据整合至单一平台并采用统一格式存储,所收录内容均为成年说话人的近期录音,涵盖多样化口语场景:日常对话、与公共服务机构交互、公开发言、会议研讨等。CEFC包含来自法国全境、瑞士及比利时的2500余名不同说话人。其二为600万词的书面语料库,源自6个源语料库,文本涵盖文学作品、日报与区域报刊、科学文献以及非专业创作内容(短信、博客)。整个数据集(含书面文本与语音转录文本)已通过半自动化方式完成标注,标注维度包括词形还原结果、语法类别(名词、动词、形容词等)以及句法功能。音频录音已在词与音素层面与对应文本完成精准对齐。平台提供多种音质的音频格式供选择,以适配不同下载时长需求。所有数据均可免费获取并下载。该资源可通过平台内置工具在线使用,亦可下载至本地后使用个人工具进行处理。同时配有专门阐释分词与标注原则的使用指南。此外,Orféo项目由法国国家科研署(Agence Nationale de la Recherche,简称ANR)以ANR 12-CORP-0005号项目编号资助,属于2011年人文社科领域“语料、数据与研究工具”专项资助计划。
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11



