OF3C - Old French Collective Corpus
收藏github2023-05-12 更新2024-05-31 收录
下载链接:
https://github.com/chartes/OF3C
下载链接
链接失效反馈官方服务:
资源简介:
OF3C是一个包含多种古法语文本的集体语料库,由École des chartes维护。该语料库包括多个来源的文本,如Chrestien、Code、DocLing等,并提供了详细的文本和统计信息。
OF3C is a collective corpus containing a variety of Old French texts, maintained by the École des chartes. This corpus includes texts from multiple sources such as Chrestien, Code, DocLing, and provides detailed textual and statistical information.
创建时间:
2021-10-19
原始信息汇总
数据集概述
数据集名称
- OF3C - Old French Collective Corpus of the École des chartes
引用信息
- 作者: Camps, Jean-Baptiste, Clérice, Thibault, Duval, Frédéric, Kanaoka, Naomi & Pinche, Ariane
- 年份: 2021
- 出版物: Corpus and Models for Lemmatisation and POS-tagging of Old French, arXiv preprint arXiv:2109.11442
- 链接: https://arxiv.org/abs/2109.11442
数据集来源
- Chrestien: Kunstmann, Pierre (éd), Chrétien de Troyes: Cligès, Erec, Lancelot, Perceval, Yvain – manuscrit P (BnF fr. 794), 2009
- Code: Duval and Pastore, in progress
- DocLing: Gleßgen, Martin Dietrich (dir.), et al., Les plus anciens documents linguistiques de la France, 2016, 3e édition
- Geste: Camps, Jean-Baptiste (dir.), Geste: un corpus de chansons de geste, 2016-… (v02), École nationale des chartes, Paris, 2019
- Lancelot: Ing, Lucence, Disparitions lexicales en diachronie: traitements automatiques sur le Lancelot en prose, thèse de doct. en préparation, dir. F. Duval, codir. J.B. Camps, École nationale des chartes, Université PSL, Paris
- WauchierSConf: Pinche, Ariane, Édition nativement numérique du recueil hagiographique ‘Li Seint Confessor’ de Wauchier de Denain d’après le manuscrit fr. 412 de la Bibliothèque nationale de France, thèse de doctorat dir. C. pierreville et B. Bureau, Université de Lyon, Lyon, 2021
数据集统计(2023-04-26)
词形、词元和词性统计
| 类别 | 不同项 | 总数 | 仅出现一次的项 |
|---|---|---|---|
| 词形 | 47,661 | 1,183,960 | 23,851 |
| 词元 | 11,295 | 1,183,960 | 3,852 |
| 词性 | 66 | 1,183,960 | 6 |
形态学统计
| 类别 | 不同项 | 总数 | 非x值 |
|---|---|---|---|
| 模式 | 6 | 478,657 | 60,740 |
| 时态 | 5 | 478,657 | 57,367 |
| 人称 | 5 | 478,657 | 106,566 |
| 数 | 3 | 478,657 | 290,326 |
| 性 | 4 | 478,657 | 226,996 |
| 格 | 4 | 478,657 | 229,586 |
| 级 | 5 | 478,657 | 42,949 |
词性分布
| 值 | 计数 |
|---|---|
| NOMcom | 160,410 |
| VERcjg | 156,630 |
| PROper | 96,533 |
| PRE | 91,586 |
| PONfbl | 79,784 |
| ADVgen | 79,578 |
| CONcoo | 66,658 |
| DETdef | 57,655 |
| PONfrt | 42,489 |
| CONsub | 40,120 |
| VERppe | 35,647 |
| ADJqua | 31,675 |
| VERinf | 28,218 |
| NOMpro | 27,872 |
| ADVneg | 25,947 |
| PROrel | 25,542 |
| DETpos | 22,367 |
| PROadv | 15,003 |
| PRE.DETdef | 14,836 |
| PROdem | 14,327 |
| PROind | 11,661 |
| DETind | 10,985 |
| PONpga | 7,707 |
| DETndf | 7,076 |
| DETdem | 6,057 |
| PONpdr | 4,842 |
| DETcar | 3,229 |
| VERppa | 2,784 |
| ADJind | 2,575 |
| PROimp | 2,036 |
| PROcar | 1,855 |
| ADJcar | 1,277 |
| ADJpos | 1,049 |
| PROint | 1,014 |
| PONpxx | 1,012 |
| ADVneg.PROper | 952 |
| PROpos | 669 |
| ADJord | 636 |
| ADVsub | 592 |
| INJ | 549 |
| ADVint | 506 |
| DETrel | 448 |
| PROord | 327 |
| PROper.PROper | 311 |
| ADVgen.PROper | 271 |
| DETint | 225 |
| PRE.PROdem | 151 |
| DETcom | 52 |
| PRE.PROper | 47 |
| PROrel.PROper | 46 |
| RED | 34 |
| ETR | 33 |
| CONsub.PROper | 18 |
| ADVgen.CONsub | 16 |
| PRE.DETcom | 12 |
| DETord | 8 |
| ADJqua.NOMcom | 7 |
| PRE.PROrel | 4 |
| ADVing | 2 |
| ADVneg.PROadv | 2 |
| PROint.PROper | 1 |
| CONsubs | 1 |
| ADVgen.PROadv | 1 |
| NomPro | 1 |
| PRE.DETrel | 1 |
| CONsub.DETdef | 1 |
模式分布
| 值 | 计数 |
|---|---|
| MODE=x | 417,917 |
| MODE=ind | 51,951 |
| MODE=sub | 5,416 |
| MODE=imp | 2,061 |
| MODE=con | 1,311 |
| MODE=cond | 1 |
时态分布
| 值 | 计数 |
|---|---|
| TEMPS=x | 421,290 |
| TEMPS=pst | 29,150 |
| TEMPS=psp | 14,882 |
| TEMPS=ipf | 9,012 |
| TEMPS=fut | 4,323 |
人称分布
| 值 | 计数 |
|---|---|
| PERS.=x | 372,091 |
| PERS.=3 | 76,497 |
| PERS.=1 | 18,377 |
| PERS.=2 | 11,455 |
| PERS.=0 | 237 |
数分布
| 值 | 计数 |
|---|---|
| NOMB.=s | 218,952 |
| NOMB.=x | 188,331 |
| NOMB.=p | 71,374 |
性分布
| 值 | 计数 |
|---|---|
| GENRE=x | 251,661 |
| GENRE=m | 155,955 |
| GENRE=f | 63,962 |
| GENRE=n | 7,079 |
格分布
| 值 | 计数 |
|---|---|
| CAS=x | 249,071 |
| CAS=r | 145,693 |
| CAS=n | 75,652 |
| CAS=i | 8,241 |
级分布
| 值 | 计数 |
|---|---|
| DEGRE=x | 435,708 |
| DEGRE=- | 24,947 |
| DEGRE=p | 16,622 |
| DEGRE=c | 910 |
| DEGRE=s | 470 |
搜集汇总
数据集介绍

构建方式
OF3C - Old French Collective Corpus的构建基于多个历史文献来源,涵盖了中世纪法国文学的多个重要作品。这些文献包括《Chrétien de Troyes》的史诗、Froissart的编年史、Guy de Chauliac的外科医学著作以及Gilles li Muisis的诗歌等。数据集的构建过程涉及对这些文献的数字化处理、词形还原(lemmatisation)和词性标注(POS-tagging),并通过学生项目中的短篇摘录进行了补充。所有文本均经过严格的注释和校对,确保了数据的高质量和学术价值。
特点
OF3C数据集以其丰富的历史文献内容和精细的标注体系著称。数据集包含超过118万条词形标注,涵盖了47,661个不同的词形和11,295个词根。此外,数据集还提供了详细的形态学信息,包括动词的时态、人称、数和性等特征。这些标注不仅为语言学研究提供了宝贵的资源,还为自然语言处理任务如词性标注和词形还原提供了高质量的基准数据。
使用方法
OF3C数据集适用于多种研究场景,包括历史语言学、文本挖掘和自然语言处理。研究人员可以通过分析数据集中的词形、词性和形态学信息,探索中世纪法语的语法结构和词汇演变。此外,数据集还可用于训练和评估自然语言处理模型,特别是在词性标注和词形还原任务中。数据集以标准化的格式提供,便于导入到各种分析工具和机器学习框架中,支持进一步的研究和应用开发。
背景与挑战
背景概述
OF3C - Old French Collective Corpus是由École des chartes的研究团队于2021年创建的一个古法语语料库,旨在为古法语的词形还原(lemmatisation)和词性标注(POS-tagging)提供高质量的数据支持。该语料库由Jean-Baptiste Camps、Thibault Clérice、Frédéric Duval等学者主导,涵盖了多个古法语文本,包括《Chrétien de Troyes》的手稿、《Geste》史诗集以及《Wauchier de Denain》的圣徒传记等。这些文本不仅反映了中世纪法国的语言特征,还为历史语言学、文学研究和数字人文领域提供了宝贵的资源。该语料库的发布极大地推动了古法语自动处理技术的发展,并为相关领域的学术研究提供了坚实的基础。
当前挑战
OF3C语料库在构建过程中面临了多方面的挑战。首先,古法语的语法和词汇与现代法语存在显著差异,导致词形还原和词性标注的复杂性较高。其次,手稿的数字化和文本的标准化处理需要大量的手工校对和语言学专业知识,尤其是在处理古法语中的缩写、拼写变异和语法结构时。此外,语料库的构建还依赖于多个来源的文本,这些文本的格式和质量参差不齐,进一步增加了数据整合的难度。最后,尽管OF3C语料库在古法语自动处理领域取得了显著进展,但其规模仍相对有限,未来需要进一步扩展和优化,以支持更广泛的研究需求。
常用场景
经典使用场景
OF3C数据集在古法语文本分析领域具有重要应用,特别是在词形还原和词性标注方面。研究者可以利用该数据集对古法语文本进行深入的形态学和句法分析,从而揭示古法语的语言结构和演变规律。该数据集包含了大量来自不同历史时期的古法语文本,为语言学家提供了丰富的研究材料。
衍生相关工作
基于OF3C数据集,研究者已经开发了多种古法语文本处理工具和模型。例如,Camps等人提出的词形还原和词性标注模型在古法语文本处理中取得了显著成果。此外,该数据集还促进了古法语与其他历史语言的对比研究,推动了跨语言历史语言学的发展。
数据集最近研究
最新研究方向
近年来,OF3C(Old French Collective Corpus)数据集在古法语语言学研究中扮演了重要角色,尤其是在词形还原(lemmatisation)和词性标注(POS-tagging)领域。随着自然语言处理技术的进步,研究者们开始利用该数据集探索古法语的形态学特征和句法结构,特别是在历史语言学和中世纪文学研究中。OF3C的丰富语料为古法语的自动处理提供了坚实的基础,推动了基于深度学习的古法语文本分析模型的发展。此外,该数据集还被广泛应用于跨语言比较研究,帮助揭示古法语与现代法语之间的演变规律。其开放性和多样性使得OF3C成为古法语研究领域不可或缺的资源,为未来的语言学和历史学研究提供了新的视角。
以上内容由遇见数据集搜集并总结生成



