five

CEFC

收藏
DataCite Commons2026-02-11 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/cefc-orfeo/v1.3
下载链接
链接失效反馈
官方服务:
资源简介:
p { margin-bottom: 0.25cm; direction: ltr; line-height: 120%; text-align: left; }a:link { } Le Corpus d'Etude pour le Français Contemporain (C.E.F.C.) est le résultat du projet Orféo (Outils et Recherches sur le Français Écrit et Oral).Il comporte 10 millions de mots : Un corpus Oral de 4 millions de mots constitué à partir de 14 corpus sources contenant les transcriptions alignées texte/parole. Le corpus rassemble sur un seul site et sous un seul format des données enregistrées dont la transcription a été soigneusement vérifiée. Il s’agit d’enregistrements récents de locuteurs adultes relevant de situations de parole diverses : conversation, interaction avec des services, prise de parole, réunion, etc. Le C.E.F.C. comporte plus de 2500 locuteurs différents provenant de l’ensemble des régions de France ainsi que de Suisse et de Belgique. Un corpus écrit de 6 millions de mots constitué à partir de 6 corpus sources de textes extraits de la littérature, de la presse quotidienne ou régionale, de textes scientifiques et d’écrits non professionnels (SMS, Blog). L’ensemble (textes écrits et transcriptions) a été annoté semi-automatiquement en lemmes, catégories grammaticales (nom, verbe, adjectif, etc.) et fonctions syntaxiques. Les enregistrements audio sont alignés avec le texte au niveau du mot et du phonème. Plusieurs formats sonores sont proposés selon la qualité et le temps de téléchargement. L’ensemble des données est en accès libre et téléchargeable. La ressource peut être exploitée en ligne au moyen des outils inclus dans la plate-forme ou être téléchargée pour traitement par des outils personnels. Des guides exposant les principes de segmentation et d’annotation accompagnent la ressource. p { margin-bottom: 0.25cm; direction: ltr; line-height: 120%; text-align: left; }a:link {ORFEO est le résultat d’un projet (ANR 12-CORP-0005) financé par l’Agence Nationale de la Recherche dans le cadre de la campagne Corpus, Données et Outils de la Recherche en Sciences Humaines et Sociales 2011.

当代法语研究语料库(Corpus d'Etude pour le Français Contemporain,以下简称CEFC)是Orféo项目(Outils et Recherches sur le Français Écrit et Oral,即书面与口语法语工具与研究项目)的研究成果。该语料库总规模达1000万词:其一为400万词的口语语料库,源自14个包含文本-语音对齐转录的源语料库。该语料库将经过严格核验的录音数据整合至单一平台并采用统一格式存储,所收录内容均为成年说话人的近期录音,涵盖多样化口语场景:日常对话、与公共服务机构交互、公开发言、会议研讨等。CEFC包含来自法国全境、瑞士及比利时的2500余名不同说话人。其二为600万词的书面语料库,源自6个源语料库,文本涵盖文学作品、日报与区域报刊、科学文献以及非专业创作内容(短信、博客)。整个数据集(含书面文本与语音转录文本)已通过半自动化方式完成标注,标注维度包括词形还原结果、语法类别(名词、动词、形容词等)以及句法功能。音频录音已在词与音素层面与对应文本完成精准对齐。平台提供多种音质的音频格式供选择,以适配不同下载时长需求。所有数据均可免费获取并下载。该资源可通过平台内置工具在线使用,亦可下载至本地后使用个人工具进行处理。同时配有专门阐释分词与标注原则的使用指南。此外,Orféo项目由法国国家科研署(Agence Nationale de la Recherche,简称ANR)以ANR 12-CORP-0005号项目编号资助,属于2011年人文社科领域“语料、数据与研究工具”专项资助计划。
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作