Corpus Académie française
收藏DataCite Commons2026-02-11 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/corpus-academie-francaise/v1.1
下载链接
链接失效反馈官方服务:
资源简介:
Le Corpus Académie française est un corpus lemmatisé et étiqueté des textes publiés sur le site de l'Académie française dans les rubriques « Discours », « Dire, ne pas dire » et « Questions de langue ». Il couvre une période allant de 1635 à nos jours, et est actualisé environ une fois par mois lorsque de nouveaux textes sont mis en ligne.Caractéristiques :corpus binaire créé sous et pour TXM (commande Fichier gt; Charger gt; Charger un corpus binaire)les textes sont lemmatisés et étiquetés à l'aide de Treetaggerles textes sont pourvus des métadonnées suivantes : author, title, date (AAAA-MM-JJ), cat, sscatl'édition des textes comporte un lien vers la page web d'origine (des différences peuvent exister lorsque la page web a été modifiée après sa récupération)Problèmes connus :les textes les plus anciens comportent des « s » longs (ſ) qui ont été remplacés automatiquement par des « s » modernes. Dans quelques textes toutefois, des erreurs de numérisation ou de recopie ont substitué des des « f » à ces « ſ » (« Vous lifez affez dans les yeux de tout le monde la joye que nous avons de vous pouvoir compter parmi les nôtres, fans qu’il foit befoin que je m’étende bien au long fur ce fujet »). Ces erreurs n'ont à ce jour pas été rectifiées.Note sur la propriété intellectuelle :Si les textes les plus anciens sont libres de droits, la plupart des textes ont pour auteurs et autrices des personnes vivantes ou décédées il y a moins de 70 ans, et sont donc couverts par le droit d'auteur.La légistation prévoit le droit de réaliser des « copies ou reproductions numériques d'une œuvre en vue de la fouille de textes et de données », et apporte les précisions suivantes :« I.-On entend par fouille de textes et de données, au sens du 10° de l'article L. 122-5, la mise en œuvre d'une technique d'analyse automatisée de textes et données sous forme numérique afin d'en dégager des informations, notamment des constantes, des tendances et des corrélations.II.-Des copies ou reproductions numériques d'œuvres auxquelles il a été accédé de manière licite peuvent être réalisées sans autorisation des auteurs en vue de fouilles de textes et de données menées à bien aux seules fins de la recherche scientifique par les organismes de recherche, les bibliothèques accessibles au public, les musées, les services d'archives ou les institutions dépositaires du patrimoine cinématographique, audiovisuel ou sonore, ou pour leur compte et à leur demande par d'autres personnes, y compris dans le cadre d'un partenariat sans but lucratif avec des acteurs privés. »Ces dispositions justifient que l'accès au corpus soit réservé à la communauté de la recherche, et il convient d'en tenir compte lors de son utilisation, laquelle doit donc être réservée aux communications et publications destinées au monde de la recherche.
法兰西学术院语料库(Le Corpus Académie française)是一套经过词形还原与词性标注的文本集合,收录自法兰西学术院官网「演讲」「言说与不言说」及「语言问题」栏目的公开文本。该语料库的收录时间跨度为1635年至今,且每月会根据官网新增文本的发布情况更新约一次。
### 数据集特征
该语料库为适配TXM平台构建的二进制语料库,可通过TXM的「文件>加载>加载二进制语料库」命令导入。所有文本均通过Treetagger工具完成词形还原与词性标注。文本附带以下元数据:作者(author)、标题(title)、日期(格式为AAAA-MM-JJ)、分类(cat)、子分类(sscat)。文本版本附带原始网页链接,若原始网页在抓取后被修改,可能会出现文本内容与当前网页不一致的情况。
### 已知问题
年代较早的文本中原本使用的长s(ſ)已被自动替换为现代普通s。但部分文本因数字化或转录错误,将原本的长s(ſ)误替换为了f,例如例句:「Vous lifez affez dans les yeux de tout le monde la joye que nous avons de vous pouvoir compter parmi les nôtres, fans qu’il foit befoin que je m’étende bien au long fur ce fujet」。截至目前,此类错误尚未修复。
### 知识产权说明
尽管部分年代久远的文本已进入公有领域,但大多数文本的作者仍在世或去世未满70年,因此受著作权法保护。法国著作权法规定了「为开展文本与数据挖掘而对作品进行数字化复制或重制」的权利,并作出如下明确说明:
一、依据法国《知识产权法典》L.122-5条第10款之定义,文本与数据挖掘指采用数字化形式对文本与数据进行自动化分析,以提取其中的信息,包括但不限于常量、趋势与关联关系。
二、对于以合法方式获取的作品,研究机构、公共图书馆、博物馆、档案馆、电影、视听或声音遗产保存机构等主体,或受其委托、为其开展工作的其他主体,包括与私营机构开展非营利性合作的情形,可为纯粹的科学研究目的进行文本与数据挖掘,可无需获得作者授权而对作品进行数字化复制或重制。
上述法律条款为语料库仅对科研群体开放提供了依据,因此使用本语料库时需遵守此限制,相关成果仅可用于面向科研界的学术交流与出版物。
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-11



