Corpus ABG

github2020-04-29 更新2024-05-31 收录

下载链接：

https://github.com/SauronGuide/corpusABG

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了一个名为Corpus ABG的完整版本，版本3，以CSV格式存储。数据集详细记录了每条数据的索引、拼写、形态学类别、词根、音位转录、带重音的音位转录、音节结构、重音类别、在总体语料库、口语语料库和书面语料库中的频率以及频率级别。

This dataset comprises the complete version of a corpus named Corpus ABG, version 3, stored in CSV format. It meticulously documents each data entry's index, spelling, morphological category, root, phonemic transcription, phonemic transcription with stress, syllable structure, stress category, frequency in the overall corpus, spoken corpus, and written corpus, as well as the frequency level.

创建时间：

2017-01-27

原始信息汇总

Corpus ABG 数据集概述

数据集内容

数据处理脚本: 包含用于处理数据以生成Corpus ABG的Python脚本。
最终版本数据: 包含单词列表及其相关信息。
数据格式: 表格格式，列由逗号分隔，包含以下列：
- 单词索引
- 拼写单词
- 形态学类别
- 词元
- 音位转录
- 带重音的音位转录
- 音节结构
- 重音类别
- 总体语料库频率
- 口头语料库频率
- 书面语料库频率
- 频率级别

脚本功能

limpa_corpus.py: 去除重音、数字和元数据。
compila_corpus.py: 合并文本文件。
script_contagem_palavras: 提取单词频率。
taggeadas.rar: 包含e-dictor标签应用说明的文件夹。
junta_tags_freqs.py: 合并形态句法信息与频率。
transcritor.rar: 包含为此工作开发的转录器的文件夹，包含转录键。
acentuador.rar: 表示重读音节，替换音节核心为重读转录符号的文件夹，包括葡萄牙语音节划分器。
contasilabas.py: 提取语料库中音节的频率。

数据集文件

完整版本: Corpus_ABG_Completo_Versao3.csv

注意事项

原始文本及其计数不在此数据集中提供，也不会由作者提供。

搜集汇总

数据集介绍

构建方式

Corpus ABG的构建涉及多个预处理步骤，包括文本清洗、文件合并、词频统计以及形态句法信息的整合。通过运用Python脚本，如limpa_corpus.py去除文本中的非必要字符，compila_corpus.py合并文本文件，script_contagem_palavras.py提取词频，以及junta_tags_freqs.py整合形态句法信息与词频，构建出包含详细语言信息的语料库。

特点

该数据集的特点在于其详尽的词汇信息，包含单词的拼写、形态类别、词干、音标、带重音的音标、音节结构、重音类别以及在不同语体中的词频。此外，Corpus ABG采用结构化的CSV格式存储，便于索引和查询，为葡萄牙语的研究提供了丰富的资源。

使用方法

使用Corpus ABG时，研究者可直接访问提供的CSV文件，利用其结构化的数据格式进行高效的查询和分析。数据集不包含原始文本，以保护文本版权，但提供了充足的词汇和句法信息，适用于语言学研究、自然语言处理等领域。用户需具备一定的数据处理能力，以充分利用该数据集的丰富信息。

背景与挑战

背景概述

Corpus ABG，一项由Bruno Guide和Aline Benevides于2016年发起的语言学数据集，专注于葡萄牙语的词汇分析。该数据集的构建旨在为研究者提供一份详尽的词汇表，涵盖单词的形态学类别、词根、音系学转录、音节结构、重音类别及在口语和书面语中的使用频率。其研究成果在语言处理、自然语言理解以及词汇统计等领域产生了深远的影响。

当前挑战

该数据集在构建过程中面临了诸多挑战，主要包括如何精确处理文本数据以去除不必要的标点、数字和元数据，以及如何有效地合并不同来源的文本文件。此外，数据集在处理词汇的音系学转录和重音标记时，需要高度专业的语言学知识和技能。在数据集的应用上，研究者们也面临着如何准确解读和使用这些详细的语言学信息的挑战。

常用场景

经典使用场景

在语料库构建与自然语言处理领域，Corpus ABG数据集的典型应用场景在于为葡萄牙语研究提供详尽的词汇频率统计及其相关属性信息。该数据集通过精妙的脚本处理，整合了词汇的形态学类别、词干、音标、音节结构、重音类别等丰富特征，使得研究者能够深入探究葡萄牙语的语音、语法及语义特性。

解决学术问题

该数据集有效解决了学术研究中关于词汇频率分布、形态学标注及语音学分析等关键问题。它为语言学研究提供了实证基础，有助于验证语言学理论，并为计算语言学领域中的模型训练和算法优化提供了支持。Corpus ABG的出现促进了语言资源数字化，推动了语言信息处理技术的发展。

衍生相关工作

基于Corpus ABG数据集，衍生了诸多相关经典工作，包括词汇分布研究、形态句法分析、语音学特征探讨等。这些研究进一步拓宽了语言学的应用范围，推动了跨学科的研究进程，如计算语言学、人工智能等领域的发展，为语言资源的深度开发与利用树立了典范。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集