Molyé corpus

Name: Molyé corpus
Creator: 法国国家信息与自动化研究所（Inria）
Published: 2024-08-09 00:09:40
License: 暂无描述

arXiv2024-08-09 更新2024-08-12 收录

下载链接：

https://github.com/defi-colaf/Molye

下载链接

链接失效反馈

官方服务：

资源简介：

Molyé corpus是由法国国家信息与自动化研究所创建的一个开放语料库，旨在研究欧洲语言接触与克里奥尔语之间的连续性。该数据集汇集了17世纪至20世纪初的文学作品，包含对法国克里奥尔语的早期记载和欧洲语言变体的典型表现。数据集通过XML-TEI标准进行编码，支持多标签语言识别，适用于历史语言学和计算语言学研究，特别是探讨克里奥尔语的起源和演变。

The Molyé corpus is an open corpus created by the Institut National de Recherche en Informatique et en Automatique (INRIA), aimed at investigating the continuity between European language contact and Creole languages. This dataset compiles literary works spanning from the 17th century to the early 20th century, containing early records of French Creole and typical manifestations of European language varieties. Encoded in accordance with the XML-TEI standard, the corpus supports multi-label language identification, and is suitable for research in historical and computational linguistics, particularly for exploring the origins and evolution of Creole languages.

提供机构：

法国国家信息与自动化研究所（Inria）

创建时间：

2024-08-09

原始信息汇总

Molyé 数据集概述

数据集描述

Molyé 语料库是一个历时收集的关于早期现代法语变体以及法语克里奥尔语早期证据的典型代表集合。该项目旨在证明，被认为是法语殖民地中皮钦化结果的多种克里奥尔语特征，实际上可以在欧洲追溯到，无论是单独还是相互结合。

数据集内容

主要语料库：位于 "main_corpus" 文件夹中的同名 XML 文件。
完整文档集：存储在 "dataset_colaf" 文件夹中，用于创建 Molyé 时间线的完整文档。
- 分类：该文件夹进一步分为三个子文件夹：
  - "theatre"：戏剧作品
  - "poetry"：诗歌作品
  - "misc_works"：其他作品

数据集详细列表

详细内容和超过 250 个文档的完整列表可在 Google 表格中查看。
该列表仍在持续重新组织和扩展中。

搜集汇总

数据集介绍

构建方式

Molyé语料库的构建采用了基于文学作品中语言变异的典型代表与早期法国克里奥尔语的证词相结合的方法。该语料库跨越了400年的时间，旨在通过历史语言学的多标签语言识别实例，展示欧洲接触情况与克里奥尔语（前）殖民地之间的连续性。研究者通过在法国国家图书馆的Gallica数字化图书馆、Delpher荷兰图书馆以及Google Books中搜索区分性n-gram来识别文档，并将相关样本转换为XML-TEI模式。然后，根据地理位置和时期对文档进行分类，并将相关引语提取到一个组合的XML文档中，以方便初步分析。

使用方法

Molyé语料库的使用方法包括创建定制子语料库，通过指定日期范围和语言标签来对应特定的问题。用户可以指定要考虑的日期范围和语言标签，从而创建出满足特定研究需求的子语料库。语料库中的所有主要来源都是公共领域的，大多数都可以在线轻松查阅。此外，语料库还提供了一个复合时间线，使用户可以更直观地比较不同时间段和语言标签下的文本。

背景与挑战

背景概述

Molyé语料库是一项针对早期现代时期克里奥尔语研究的重要资源。该语料库由Rasul Dent、Juliette Janès、Thibault Clérice、Pedro Ortiz Suarez和Benoît Sagot等研究人员于2024年创建，旨在探讨欧洲与克里奥尔语（特别是法属克里奥尔语）之间的语言接触及其演变。该语料库包含68部文学作品，涵盖了400年间法属克里奥尔语的各种形式，并结合了欧洲三种语言变体的典型特征。Molyé语料库的创建填补了早期克里奥尔语研究的空白，为理解语言接触、克里奥尔语的起源和发展提供了宝贵的数据资源。

当前挑战

Molyé语料库的创建和研究面临着一系列挑战。首先，早期克里奥尔语的文献资料匮乏，使得研究者难以追溯其历史演变。其次，构建语料库过程中，研究人员需要从大量的历史文献中筛选出具有代表性的作品，并进行数字化处理，这是一项耗时且复杂的工作。此外，由于克里奥尔语与欧洲语言的差异较大，对其进行语言学分析需要特定的方法和工具。最后，由于克里奥尔语的历史背景复杂，涉及多种语言和文化，研究者需要具备跨学科的知识和技能才能对其进行深入研究。

常用场景

经典使用场景

Molyé语料库的创建旨在探讨早期现代时期发展起来的克里奥尔语是否可以被认为是欧洲语言的遗传后代，并解决相关证据缺失的问题。该语料库结合了欧洲三种语言变体的典型代表，以及跨越400年历史的基于法语的克里奥尔语早期记录。它旨在促进未来关于欧洲接触情况与克里奥尔语（前）殖民地之间连续性的研究。

解决学术问题

Molyé语料库解决了关于克里奥尔语与它们的词源语言之间语法差异的学术研究问题。长期以来，克里奥尔语的语法与它们的词源语言相比有更大的差异，而词汇则相对保持一致。Molyé语料库通过提供早期克里奥尔语的证据，有助于解释这种差异的原因。此外，该语料库还解决了早期克里奥尔语记录匮乏的问题，并通过应用语言识别的视角来解决语言接触的多层次问题。

实际应用

Molyé语料库的实际应用场景包括语言接触研究、克里奥尔语的历史语言学研究和自然语言处理。它为研究欧洲语言接触和克里奥尔语的发展提供了宝贵的数据资源。此外，该语料库还可以用于开发语言模型，以解决具体问题并促进理论问题的研究。最后，Molyé语料库可以用于机器翻译和语言识别等应用。

数据集最近研究