FreEM LPM

github2022-04-25 更新2024-05-31 收录

下载链接：

https://github.com/FreEM-corpora/FreEMlpm

下载链接

链接失效反馈

官方服务：

资源简介：

FreEM LPM是一个包含早期现代法语（16-18世纪）的语料库，提供了词形还原、词性标注和形态学分析的数据集。

FreEM LPM is a corpus encompassing Early Modern French (16th-18th centuries), providing a dataset for lemmatization, part-of-speech tagging, and morphological analysis.

创建时间：

2022-01-18

原始信息汇总

数据集概述

数据集名称

FreEM LPM (Lemmas, POS, Morphology)

数据集描述

Linguistically annotated corpora of modern French (16-18th c.).

数据集内容

1. 权威列表

authority: 包含所有其他词条。
proper: 仅包含专有名词。
foreign: 包含所有外来词。
numbers: 包含拉丁和阿拉伯数字。
alphabet: 包含单个拉丁字母。
每个文件均有一个_processed版本，按字母顺序排列，确保无重复条目。

2. 训练数据

CornMol: 待发布的黄金语料库。
FranText: 基于FranText开放数据的语料库，按我们的词条化标准对齐。
presto_gold: 用于_Presto_项目训练TreeTagger模型的黄金语料库，转换为CATTEX并轻微修正以匹配我们的权威列表。
presto_max: _Presto_项目中所有现代（16-18世纪）文本，词条经过大量修正，每轮标注/修正版本号不同（如v2, v3等）。

3. 域外测试数据

针对16至20世纪的法国数据，分为戏剧和非戏剧两类。
数据存在两种版本：标准化和原始版本（仅16至18世纪版本不同）。

4. 模型

包含所有使用我们数据生成的模型。

许可证

本工作根据Creative Commons Attribution 4.0 International Licence授权。
_Presto_和_LGeRM_数据根据Creative Commons Attribution 4.0 International Licence授权。

搜集汇总

数据集介绍

构建方式

FreEM LPM数据集的构建基于多个权威词表及训练数据的整合与校正。该数据集从LGeRM词表中提取了专有名词、普通词条及外来词汇，并通过处理确保词条的唯一性和按字母顺序排列。训练数据包括《CornMol》黄金语料库、来自FranText的开放数据以及《Presto》项目的语料库，后者经过多次校正以匹配权威词表。此外，还提供了16至20世纪法语的非领域测试数据，分为戏剧和非戏剧两类，并包含标准化和原始版本。

特点

FreEM LPM数据集以其对16至18世纪现代法语的词形、词性和形态学标注而著称。其特点在于提供了多个经过严格校正的权威词表，以及高质量的黄金语料库和训练数据。数据集还特别区分了戏剧和非戏剧文本，并提供了标准化和原始版本，便于研究不同历史时期的语言变化。此外，数据集附带了基于这些数据训练的模型，可直接用于词形还原和词性标注任务。

使用方法

使用FreEM LPM数据集时，首先需通过虚拟环境安装Pie-extended工具包，并下载FreEM模型。随后，用户可通过命令行调用模型对文本进行词形还原和词性标注。Pie-extended工具包内置了专门针对早期现代法语的分词器，确保标注的准确性。数据集的使用方法简单高效，适合用于历史语言学研究和自然语言处理任务。

背景与挑战

背景概述

FreEM LPM（Lemmas, POS, Morphology）是一个专注于现代法语（16至18世纪）的语言学标注语料库，由Simon Gabay、Thibault Clérice等研究人员于2022年创建。该数据集旨在为历史法语的词形还原、词性标注和形态分析提供高质量的语言资源。FreEM LPM的构建基于多个权威语料库，如LGeRM和FranText，并结合了Presto项目的标注数据。该数据集不仅为语言学家和历史学家提供了研究早期法语语言演变的工具，还为自然语言处理领域中的历史文本分析任务提供了重要的数据支持。其影响力体现在对古典法语戏剧文本的标注标准化以及跨领域研究的推动上。

当前挑战

FreEM LPM在解决历史法语文本的词形还原和词性标注问题时，面临多重挑战。首先，早期法语的拼写和语法规则与现代法语存在显著差异，导致标注过程中需要处理大量非标准化的语言现象。其次，数据集的构建依赖于多个来源的语料库，这些语料库的标注标准和格式各不相同，需要进行复杂的对齐和校正工作。此外，由于历史文本的稀缺性和多样性，数据集的覆盖范围和代表性也受到限制。在技术层面，模型的训练和优化需要处理高维度的语言学特征，同时确保标注的一致性和准确性。这些挑战不仅考验了数据集的构建方法，也对后续的自然语言处理任务提出了更高的要求。

常用场景

经典使用场景

FreEM LPM数据集在语言学研究中扮演着重要角色，尤其是在对16至18世纪现代法语文本的词汇、词性和形态学分析中。研究者们利用该数据集进行词形还原（lemmatisation）和词性标注（POS-tagging），以深入理解早期法语的语言结构和演变。通过其提供的权威词表和训练数据，学者们能够构建和优化自然语言处理模型，从而更准确地处理历史文本。

衍生相关工作

FreEM LPM数据集衍生了许多经典的研究工作，例如《Presto》项目中的树标注模型训练，以及基于该数据集的词形还原和词性标注工具的开发和优化。这些工作不仅推动了早期法语文本处理技术的发展，还为其他历史语言的研究提供了可借鉴的方法和工具。此外，相关研究还发表在《Journal of Data Mining & Digital Humanities》等国际期刊上，进一步扩大了其学术影响力。

数据集最近研究