MCVF plus Penn-BFM Parsed Corpus of Historical French

github2024-05-03 更新2024-05-31 收录

下载链接：

https://github.com/beatrice57/mcvf-plus-ppchf

下载链接

链接失效反馈

官方服务：

资源简介：

MCVF plus Penn-BFM Parsed Corpus of Historical French是一个项目，旨在为语言学研究提供经过解析的历史法语文本。它包括两个形态句法标注的古法语和中法语语料库，总共包含超过1.6百万字的文本。

The MCVF plus Penn-BFM Parsed Corpus of Historical French is a project designed to provide parsed historical French texts for linguistic research. It includes two morphosyntactically annotated corpora of Old and Middle French, comprising over 1.6 million words in total.

创建时间：

2021-05-31

原始信息汇总

数据集概述

数据集名称

Modéliser le changement: Les voies de français (MCVF), versions 1.0 and 2.0
Penn-BFM Parsed Corpus of Historical French (PPCHF), version 1.0

数据集内容

MCVF: 包含843,427字
PPCHF: 包含762,814字
总计超过1.6百万字

数据集特点

包含古法语和中法语的形态句法标注文本
文本编码格式为UTF-8

数据集使用指南

形态句法标注遵循特定指南，详见https://www.ling.upenn.edu/~beatrice/corpus-ling/annotation-french

数据集搜索工具

可使用CorpusSearch 2进行搜索、修订和编码

许可证

数据集遵循Creative Commons License Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

搜集汇总

数据集介绍

构建方式

MCVF plus Penn-BFM Parsed Corpus of Historical French数据集的构建基于两个主要的历史法语文本语料库：Modéliser le changement: Les voies de français (MCVF) 和 Penn-BFM Parsed Corpus of Historical French (PPCHF)。这两个语料库分别包含了843,427和762,814个词，总计超过160万词。文本的来源包括多种历史文献，并通过Base Français Médiéval (BFM)项目的基础设施进行整合。语料库的构建遵循了Beatrice Santorini和Rodica Diaconescu开发的标注指南，确保了词性标注和句法解析的一致性和准确性。

特点

该数据集的主要特点在于其对历史法语文本的详细形态句法标注，涵盖了从古法语到中古法语的广泛时期。数据集的文本编码采用UTF-8，确保了跨平台的兼容性。此外，数据集的标注遵循了扩展的历史英语标注指南，使得研究者能够在统一的框架下进行语言变化的研究。数据集的开放性和详细的标注指南为语言学研究提供了宝贵的资源。

使用方法

MCVF plus Penn-BFM Parsed Corpus of Historical French数据集可以通过CorpusSearch 2工具进行搜索和分析，该工具专门用于处理和分析句法解析的语料库。用户可以根据研究需求，利用该工具对数据集中的词性标注和句法结构进行查询和编码。此外，数据集的标注指南和详细的文档为研究者提供了操作的依据，确保了数据集在语言学研究中的有效应用。

背景与挑战

背景概述

MCVF plus Penn-BFM Parsed Corpus of Historical French数据集是由Modéliser le changement: Les voies de français (MCVF)和Penn-BFM Parsed Corpus of Historical French (PPCHF)两个语料库组成的，旨在为历史法语的语言学研究提供经过形态句法标注的文本资源。该数据集由Beatrice Santorini主导，汇集了超过160万字的古法语和中古法语文本，涵盖了MCVF的1.0和2.0版本以及PPCHF的1.0版本。该项目的核心研究问题在于通过详细的形态句法标注，帮助研究者更好地理解历史法语的演变过程。其创建时间为2005年至2010年，主要研究人员包括Beatrice Santorini和Rodica Diaconescu，项目得到了Base Français Médiéval (BFM)项目的支持，对历史法语研究领域具有重要影响力。

当前挑战

该数据集在构建过程中面临了多个挑战。首先，历史法语文本的形态句法标注需要极高的准确性和一致性，以确保研究结果的可靠性。其次，古法语和中古法语的文本来源多样且复杂，整合这些资源并进行统一标注是一项艰巨的任务。此外，数据集的规模庞大，如何高效地管理和检索这些数据也是一个技术难题。最后，尽管该数据集已经提供了详细的标注指南，但如何确保不同研究者在使用时能够遵循统一的标准，仍然是一个持续的挑战。

常用场景

经典使用场景

MCVF plus Penn-BFM Parsed Corpus of Historical French数据集的经典使用场景主要集中在历史法语的语言学研究中。该数据集包含了经过形态句法标注的古法语和中古法语文本，为研究者提供了丰富的语料资源。通过这些标注，研究者可以深入分析历史法语的语法结构、词汇演变以及语言变化的模式，从而推动历史语言学领域的研究进展。

解决学术问题

该数据集解决了历史语言学研究中常见的语料匮乏问题，特别是古法语和中古法语的语料稀缺性。通过提供经过精确标注的文本，研究者能够更准确地追踪语言的演变轨迹，分析语法和词汇的变化规律。这不仅有助于语言学家理解法语的历史发展，还为比较语言学和语言接触研究提供了宝贵的数据支持。

衍生相关工作

基于MCVF plus Penn-BFM Parsed Corpus of Historical French数据集，研究者们开发了多种语言分析工具和模型。例如，一些学者利用该数据集构建了历史法语的语法变化模型，进一步推动了历史语言学的理论研究。此外，该数据集还启发了对其他历史语言语料库的构建和标注方法的研究，促进了跨语言和跨时代的语言比较研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集