hawaiian-corpus
收藏github2024-03-18 更新2024-05-31 收录
下载链接:
https://github.com/dohliam/hawaiian-corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含基于夏威夷语书面文本的频率列表、停用词列表和最常见的n-grams列表。文本来源于Ulukau夏威夷电子图书馆,总词数为1070万,限定为现代(20世纪后)非宗教文本。
This dataset comprises frequency lists, stopword lists, and the most common n-grams lists derived from written texts in the Hawaiian language. The texts are sourced from the Ulukau Hawaiian Electronic Library, encompassing a total of 10.7 million words, and are limited to modern (post-20th century) non-religious texts.
创建时间:
2016-06-28
原始信息汇总
数据集概述
数据集名称
hawaiian-corpus - 来自夏威夷语书面语料库的数据
数据来源
数据来源于夏威夷电子图书馆 Ulukau。
数据内容
数据集包含以下文件:
- 夏威夷语频率列表 (data/freqlist_haw.txt):语料库中所有单词按频率排列的列表。
- 夏威夷语停用词列表 (data/stoplist_haw.txt):从频率文件中提取的停用词列表,目前正在验证和更新,计划最终包含在 stopwords-json 项目中。
- 夏威夷语双词序列列表 (data/ngrams/2grams_haw.txt):最常见的两个单词序列,按频率排列。
- 夏威夷语三词序列列表 (data/ngrams/3grams_haw.txt):最常见的三个单词序列,按频率排列。
- 夏威夷语四词序列列表 (data/ngrams/4grams_haw.txt):最常见的四个单词序列,按频率排列。
- 夏威夷语料库统计信息 (data/corpus_stats-haw.md)。
数据集规模
语料库总计包含1070万个单词,限定于现代(20世纪后)和非宗教文本。
许可证
CC0。
搜集汇总
数据集介绍

构建方式
Hawaiian-corpus数据集的构建基于夏威夷语(ʻŌlelo Hawaiʻi)的书面文本语料库,数据来源于夏威夷电子图书馆(Ulukau)。该语料库包含了1070万单词,筛选标准限定为20世纪后的现代文本,并排除了宗教经文。通过这一筛选,确保了语料的现代性和实用性。数据进一步处理为频率列表、停用词列表以及常见的n-gram列表,为语言学研究提供了丰富的资源。
特点
Hawaiian-corpus数据集的特点在于其专注于夏威夷语的现代书面文本,涵盖了高频词、停用词以及常见的二词、三词和四词序列。这些数据不仅反映了夏威夷语的语言使用模式,还为自然语言处理任务如文本分类、语言模型训练等提供了基础支持。数据集的结构清晰,文件分类明确,便于研究者快速获取所需信息。
使用方法
使用Hawaiian-corpus数据集时,研究者可通过频率列表分析夏威夷语的词汇分布,利用停用词列表优化文本处理任务,并通过n-gram列表探索语言中的常见短语模式。数据集的文件格式为文本文件,可直接用于编程语言如Python或R中的文本分析工具。此外,语料库的统计信息文件提供了对数据的整体概览,帮助用户快速了解数据集的基本特征。
背景与挑战
背景概述
Hawaiian-corpus数据集是一个专注于夏威夷语(ʻŌlelo Hawaiʻi)书面文本的语料库,旨在为语言学研究提供丰富的资源。该数据集由夏威夷电子图书馆(Ulukau)提供的文本构建而成,涵盖了现代(20世纪后)非宗教文本,总词汇量达到1070万。其主要研究人员或机构未明确提及,但数据集的核心研究问题在于通过高频词表、停用词表以及常见n-gram列表,揭示夏威夷语的语言特征和结构。该数据集为夏威夷语的数字化保存、语言教学以及自然语言处理研究提供了重要支持,对濒危语言的保护和复兴具有深远意义。
当前挑战
Hawaiian-corpus数据集在构建和应用过程中面临多重挑战。首先,夏威夷语作为一种濒危语言,其文本资源相对稀缺,数据收集和整理工作具有较高的难度。其次,现代夏威夷语文本的标准化程度较低,语料库的构建需要解决文本清洗、分词以及语言变体处理等问题。此外,停用词表的验证和更新是一个持续的过程,需要结合语言学专家的知识以确保其准确性和实用性。在应用层面,如何利用该数据集进行有效的自然语言处理任务,如机器翻译或文本生成,仍需进一步探索和优化。
常用场景
经典使用场景
在语言学研究中,hawaiian-corpus数据集被广泛用于分析夏威夷语的语言结构和词汇使用模式。研究者通过该数据集中的频率列表、停用词表以及常见的n-gram序列,能够深入探讨夏威夷语的语法规则、词汇分布以及语言演变趋势。特别是在现代夏威夷语的语料分析中,该数据集为语言学家提供了丰富的数据支持,帮助他们理解夏威夷语在当代社会中的使用情况。
解决学术问题
hawaiian-corpus数据集解决了夏威夷语研究中数据稀缺的问题,为语言学家提供了大规模的现代夏威夷语文本资源。通过该数据集,研究者能够进行词汇频率分析、语言模型构建以及语言变体研究,从而填补了夏威夷语在计算语言学和语料库语言学领域的空白。此外,该数据集还为夏威夷语的保护和复兴提供了重要的数据基础,推动了夏威夷语在学术和教育领域的应用。
衍生相关工作
基于hawaiian-corpus数据集,研究者们开发了多种夏威夷语的语言模型和工具。例如,该数据集被用于构建夏威夷语的词向量模型,支持了语义分析和文本分类任务。此外,该数据集还催生了夏威夷语的停用词库项目,为其他语言处理工具提供了参考。这些衍生工作不仅丰富了夏威夷语的研究资源,还推动了夏威夷语在计算语言学领域的进一步发展。
以上内容由遇见数据集搜集并总结生成



