FreEM max OA

github2022-12-26 更新2024-05-31 收录

下载链接：

https://github.com/FreEM-corpora/FreEMmax_OA

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个大型开放访问数据集，专为早期现代法语设计，包含多种来源的文档，如维基百科、网络爬取和XML格式文件。数据集通过特定的脚本处理，生成结构化的TEI编码文本和清洁的.txt文件。

This is a large open-access dataset specifically designed for early modern French, encompassing documents from various sources such as Wikipedia, web scraping, and XML files. The dataset is processed through specific scripts to generate structured TEI-encoded texts and clean .txt files.

创建时间：

2022-01-18

原始信息汇总

数据集概述

数据集名称

FreEM max OA

数据集描述

本数据集包含多种来源的文档，如Wikipedia、网络爬取和XML等。文档主要存储在0_source文件夹中，其中.doc或.txt格式的文件或在线找到的文件以TEI格式松散编码。

数据集结构

0_source: 存储原始文档，格式为.xml。
1_header: 包含新的teiHeader，提供有限但高度结构化的信息。
2_TEI: 包含经过TEI编码的文档。
3_TXT: 包含清理后的.txt文件。
ODD: 包含用于编码的ODD/schema。
scripts: 包含用于生成最终数据集的脚本，如build.py。

数据集生成

使用python3 build.py脚本可以生成最终的TEI编码文档和清理后的.txt文件。

数据集内容警告

本数据集是FreEM max的开放访问版本，部分重要数据已被移除。

许可证信息

每个文件和项目的许可证不同，需注意<licence>元素在<teiHeader>中的说明。

引用信息

bibtex @software{gabay_simon_2022_6481135, author = {Gabay, Simon and Bartz, Alexandre and Gambette, Philippe and Chagué, Alix}, title = {{FreEM-corpora/FreEMmax_OA: FreEM max OA: A Large Corpus for Early modern French - Open access version}}, month = apr, year = 2022, publisher = {Zenodo}, version = {1.0.0}, doi = {10.5281/zenodo.6481135}, url = {https://doi.org/10.5281/zenodo.6481135} }

搜集汇总

数据集介绍

构建方式

FreEM max OA数据集的构建过程体现了对早期现代法语文本的广泛收集与精细处理。该数据集通过多种渠道获取文本，包括在线资源、同事提供的文档等，这些原始数据被存储在0_source文件夹中，并以TEI格式进行松散编码。随后，数据集通过Python脚本进行自动化处理，生成具有最小TEI编码的转录版本，并清理为纯文本格式。这一过程不仅确保了数据的多样性和完整性，还通过结构化的TEI头文件增强了数据的可检索性和可用性。

特点

FreEM max OA数据集的特点在于其多样化的文本来源和高度结构化的元数据。数据集涵盖了从维基百科到专业文献的广泛文本类型，每种文本都配备了详细的TEI头文件，提供了作者、出版日期等关键信息。此外，数据集通过ODD/schema确保了编码的一致性和规范性，使得研究者能够高效地进行文本分析和比较研究。这种结构化的设计不仅提升了数据集的学术价值，也为早期现代法语研究提供了丰富的资源。

使用方法

使用FreEM max OA数据集时，研究者可以通过运行提供的Python脚本`build.py`来自动生成最终的语料库。该脚本将原始数据转换为具有最小TEI编码的XML文件，并生成清理后的纯文本文件。研究者可以根据需要访问不同文件夹中的数据，如0_source中的原始文件、1_header中的TEI头文件、2_TEI中的编码文件以及3_TXT中的纯文本文件。此外，数据集还提供了详细的目录文件（TOC.tsv），便于快速定位和检索所需文本。通过这种方式，研究者能够灵活地利用该数据集进行文本挖掘、语言学研究等工作。

背景与挑战

背景概述

FreEM max OA数据集是一个专注于早期现代法语的大型语料库，由Simon Gabay、Alexandre Bartz、Philippe Gambette和Alix Chagué等研究人员于2022年创建。该数据集旨在为语言学家、历史学家和计算语言学家提供一个开放访问的资源，以支持对早期现代法语文本的深入研究。数据集包含了多种来源的文档，如维基百科、网络抓取数据和XML文件等，并通过TEI（Text Encoding Initiative）标准进行编码。FreEM max OA的发布不仅丰富了早期现代法语研究的资源库，还为跨学科研究提供了重要的数据支持。

当前挑战

FreEM max OA数据集在构建过程中面临了多重挑战。首先，早期现代法语的文本多样性极高，涵盖了不同时期、不同地域和不同文体的文本，如何统一编码和处理这些异构数据是一个复杂的问题。其次，数据集中的部分文档由于版权或法律限制无法公开，导致数据集的完整性受到影响。此外，TEI编码的复杂性要求研究人员具备较高的技术能力，以确保数据的准确性和一致性。最后，如何在不修改原始文件的前提下生成符合标准的TEI编码文本，也是一个技术上的难点。这些挑战不仅影响了数据集的构建过程，也对后续的研究应用提出了更高的要求。

常用场景

经典使用场景

FreEM max OA数据集广泛应用于早期现代法语的语言学研究，特别是在文本挖掘和自然语言处理领域。研究者利用该数据集进行词频分析、句法结构研究以及语义变化的历史追踪。其丰富的文本来源和多样的编码格式为语言学家提供了宝贵的研究材料。

衍生相关工作

基于FreEM max OA数据集，衍生了许多经典研究，例如从FreEM到D'AlemBERT的语言模型开发。这些工作不仅扩展了早期现代法语的研究范围，还为其他历史语言的数字化研究提供了参考。此外，该数据集还促进了跨学科合作，推动了语言学与计算机科学的深度融合。

数据集最近研究