hawaiian-corpus

github2024-03-18 更新2024-05-31 收录

下载链接：

https://github.com/dohliam/hawaiian-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含基于夏威夷语书面文本的频率列表、停用词列表和最常见的n-grams列表。文本来源于Ulukau夏威夷电子图书馆，总词数为1070万，限定为现代（20世纪后）非宗教文本。

This dataset comprises frequency lists, stopword lists, and the most common n-grams lists derived from written texts in the Hawaiian language. The texts are sourced from the Ulukau Hawaiian Electronic Library, encompassing a total of 10.7 million words, and are limited to modern (post-20th century) non-religious texts.

创建时间：

2016-06-28

原始信息汇总

数据集概述

数据集名称

hawaiian-corpus - 来自夏威夷语书面语料库的数据

数据来源

数据来源于夏威夷电子图书馆 Ulukau。

数据内容

数据集包含以下文件：

夏威夷语频率列表 (data/freqlist_haw.txt)：语料库中所有单词按频率排列的列表。
夏威夷语停用词列表 (data/stoplist_haw.txt)：从频率文件中提取的停用词列表，目前正在验证和更新，计划最终包含在 stopwords-json 项目中。
夏威夷语双词序列列表 (data/ngrams/2grams_haw.txt)：最常见的两个单词序列，按频率排列。
夏威夷语三词序列列表 (data/ngrams/3grams_haw.txt)：最常见的三个单词序列，按频率排列。
夏威夷语四词序列列表 (data/ngrams/4grams_haw.txt)：最常见的四个单词序列，按频率排列。
夏威夷语料库统计信息 (data/corpus_stats-haw.md)。

数据集规模

语料库总计包含1070万个单词，限定于现代（20世纪后）和非宗教文本。

许可证

CC0。

搜集汇总

数据集介绍

构建方式

Hawaiian-corpus数据集的构建基于夏威夷语（ʻŌlelo Hawaiʻi）的书面文本语料库，数据来源于夏威夷电子图书馆（Ulukau）。该语料库包含了1070万单词，筛选标准限定为20世纪后的现代文本，并排除了宗教经文。通过这一筛选，确保了语料的现代性和实用性。数据进一步处理为频率列表、停用词列表以及常见的n-gram列表，为语言学研究提供了丰富的资源。

特点

Hawaiian-corpus数据集的特点在于其专注于夏威夷语的现代书面文本，涵盖了高频词、停用词以及常见的二词、三词和四词序列。这些数据不仅反映了夏威夷语的语言使用模式，还为自然语言处理任务如文本分类、语言模型训练等提供了基础支持。数据集的结构清晰，文件分类明确，便于研究者快速获取所需信息。

使用方法

使用Hawaiian-corpus数据集时，研究者可通过频率列表分析夏威夷语的词汇分布，利用停用词列表优化文本处理任务，并通过n-gram列表探索语言中的常见短语模式。数据集的文件格式为文本文件，可直接用于编程语言如Python或R中的文本分析工具。此外，语料库的统计信息文件提供了对数据的整体概览，帮助用户快速了解数据集的基本特征。

背景与挑战

背景概述

Hawaiian-corpus数据集是一个专注于夏威夷语（ʻŌlelo Hawaiʻi）书面文本的语料库，旨在为语言学研究提供丰富的资源。该数据集由夏威夷电子图书馆（Ulukau）提供的文本构建而成，涵盖了现代（20世纪后）非宗教文本，总词汇量达到1070万。其主要研究人员或机构未明确提及，但数据集的核心研究问题在于通过高频词表、停用词表以及常见n-gram列表，揭示夏威夷语的语言特征和结构。该数据集为夏威夷语的数字化保存、语言教学以及自然语言处理研究提供了重要支持，对濒危语言的保护和复兴具有深远意义。

当前挑战

Hawaiian-corpus数据集在构建和应用过程中面临多重挑战。首先，夏威夷语作为一种濒危语言，其文本资源相对稀缺，数据收集和整理工作具有较高的难度。其次，现代夏威夷语文本的标准化程度较低，语料库的构建需要解决文本清洗、分词以及语言变体处理等问题。此外，停用词表的验证和更新是一个持续的过程，需要结合语言学专家的知识以确保其准确性和实用性。在应用层面，如何利用该数据集进行有效的自然语言处理任务，如机器翻译或文本生成，仍需进一步探索和优化。

常用场景

经典使用场景

在语言学研究中，hawaiian-corpus数据集被广泛用于分析夏威夷语的语言结构和词汇使用模式。研究者通过该数据集中的频率列表、停用词表以及常见的n-gram序列，能够深入探讨夏威夷语的语法规则、词汇分布以及语言演变趋势。特别是在现代夏威夷语的语料分析中，该数据集为语言学家提供了丰富的数据支持，帮助他们理解夏威夷语在当代社会中的使用情况。

解决学术问题

hawaiian-corpus数据集解决了夏威夷语研究中数据稀缺的问题，为语言学家提供了大规模的现代夏威夷语文本资源。通过该数据集，研究者能够进行词汇频率分析、语言模型构建以及语言变体研究，从而填补了夏威夷语在计算语言学和语料库语言学领域的空白。此外，该数据集还为夏威夷语的保护和复兴提供了重要的数据基础，推动了夏威夷语在学术和教育领域的应用。

衍生相关工作

基于hawaiian-corpus数据集，研究者们开发了多种夏威夷语的语言模型和工具。例如，该数据集被用于构建夏威夷语的词向量模型，支持了语义分析和文本分类任务。此外，该数据集还催生了夏威夷语的停用词库项目，为其他语言处理工具提供了参考。这些衍生工作不仅丰富了夏威夷语的研究资源，还推动了夏威夷语在计算语言学领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集