FreEM Norm corpus

github2022-04-24 更新2024-05-31 收录

下载链接：

https://github.com/FreEM-corpora/FreEMnorm

下载链接

链接失效反馈

官方服务：

资源简介：

17世纪法语文本的平行语料库（原始与规范化对比）。

A parallel corpus of 17th-century French texts (original vs. normalized comparison).

创建时间：

2022-01-17

原始信息汇总

数据集概述

数据集名称

FreEM Norm corpus

数据集内容

Parallel corpus (diplomatic vs normalised) of 17th c. French texts.

数据集结构

数据集文件位于 corpus folder.
详细内容列表可查阅 TableOfContent.tsv.

转录规范

转录接近外交版本，长字符 ſ 被保留。
已消失的连字（如 ſt, st, ct）未被保留，但当代法语中仍存在的连字（如 œ, æ）被保留。

贡献方式

通过克隆仓库并发送拉取请求或发送电子邮件至 simon.gabay[at]unige.ch 进行贡献。

致谢

额外数据和修正由 Philippe Gambette 和 Jonathan Poinhos 提供。

引用指南

使用数据时，应引用以下文献： bibtex @software{gabay_simon_2022_6481179, author = {Gabay, Simon and Gambette, Philippe}, title = {{FreEM-corpora/FreEMnorm: FreEM norm Parallel (original vs. normalised) corpus for Early Modern French}}, month = jan, year = 2022, publisher = {Zenodo}, version = {1.0.1}, doi = {10.5281/zenodo.6481179}, url = {https://doi.org/10.5281/zenodo.6481179} }

许可证

本数据集遵循 Creative Commons Attribution 4.0 International Licence.

搜集汇总

数据集介绍

构建方式

FreEM Norm语料库的构建基于17世纪法语文本文档的平行语料，涵盖了原始文本（diplomatic）与规范化文本（normalised）的对照版本。构建过程中，转录文本尽可能保留了原始文本的拼写特征，如长s（*ſ*）的使用，同时移除了已消失的连字（如*ſt*、*st*、*ct*），但保留了现代法语中仍存在的连字（如*œ*、*æ*）。语料库的构建旨在为早期现代法语的规范化研究提供高质量的平行数据支持。

使用方法

使用FreEM Norm语料库时，用户可通过GitHub仓库访问语料文件夹，获取详细的语料内容列表。语料库适用于早期现代法语的规范化研究、历史语言学分析以及机器翻译模型的训练与评估。用户可通过克隆仓库并提交拉取请求的方式参与语料库的贡献与改进，或通过邮件与维护团队联系。语料库的使用需遵循Creative Commons Attribution 4.0国际许可协议，并在引用时注明相关文献。

背景与挑战

背景概述

FreEM Norm corpus 是一个专注于17世纪法语文本的平行语料库，由Simon Gabay和Philippe Gambette等研究人员于2022年创建。该语料库的核心研究问题在于如何将17世纪的法语文本进行规范化处理，以便于现代读者和研究者理解和使用。这一研究在数字人文领域具有重要意义，特别是在早期现代法语的自动规范化处理方面。FreEM Norm corpus 的创建不仅推动了历史语言学的研究，还为机器翻译和自然语言处理技术提供了宝贵的数据资源。

当前挑战

FreEM Norm corpus 面临的主要挑战包括两个方面。首先，17世纪法语的语法、拼写和词汇与现代法语存在显著差异，如何准确地将这些历史文本进行规范化处理是一个复杂的问题。其次，在构建语料库的过程中，研究人员需要处理大量的手写文本和印刷文本，这些文本的转录和校对工作极为繁琐且容易出错。此外，如何利用现代自然语言处理技术（如神经机器翻译）来实现自动规范化处理，也是一个亟待解决的技术难题。这些挑战不仅考验了研究人员的语言学知识，还对计算语言学技术提出了更高的要求。

常用场景

经典使用场景

FreEM Norm corpus 作为17世纪法语文本的平行语料库，广泛应用于历史语言学研究中。研究者通过对比原始文本与规范化文本，深入探讨早期现代法语的拼写、语法及词汇演变。该数据集为语言学家提供了宝贵的资源，帮助他们理解语言变化的历史轨迹。

解决学术问题

FreEM Norm corpus 解决了早期现代法语文本规范化处理的难题。通过提供原始文本与规范化文本的对照，该数据集为语言学家和计算语言学家提供了研究语言演变和自动规范化技术的实验平台。其意义在于推动了历史语言学与计算语言学的交叉研究，为语言模型的训练和评估提供了高质量的数据支持。

实际应用

在实际应用中，FreEM Norm corpus 被用于开发自动文本规范化工具，特别是在数字化历史文献的领域。通过利用该数据集，研究人员能够训练机器学习模型，自动将早期现代法语文本转换为现代法语，从而提升历史文献的可读性和可访问性。这一应用在文化遗产保护和数字人文研究中具有重要意义。

数据集最近研究