Granite Finnish Ngrams

github2024-10-17 更新2024-10-18 收录

下载链接：

https://github.com/fohrloop/granite-finnish-ngrams

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于开发Granite键盘布局的芬兰语字符ngrams（unigrams, bigrams, trigrams）。数据集由芬兰语OpenSubtitles 2017和芬兰语Wikipedia的混合数据组成，用于优化键盘布局。

This dataset comprises Finnish character ngrams (unigrams, bigrams, trigrams) for the development of the Granite keyboard layout. It is assembled from a mixed corpus of Finnish OpenSubtitles 2017 and Finnish Wikipedia, and is employed to optimize the Granite keyboard layout.

创建时间：

2024-10-02

原始信息汇总

Granite Finnish Ngrams 数据集概述

数据集描述

该数据集包含芬兰语基于字符的ngrams（unigrams, bigrams, trigrams），用于开发Granite Layout，并与Keyboard Layout Optimizer兼容。语料库在创建ngrams之前已清理掉非典型字符。

语料库来源

语料库由以下数据集混合而成：

33.333% 芬兰语OpenSubtitles 2017语料库 opensub-fi-2017-src
66.666% 芬兰语Wikipedia语料库 wikipedia-fi-2017-src

最常见的ngrams

最常见的unigrams

──────────────────── finnish ───────────────────── 1: ␣ ▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇ 11.96 2: a ▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇ 9.82 3: i ▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇ 8.92 4: n ▇▇▇▇▇▇▇▇▇▇▇▇▇▇ 7.41 5: t ▇▇▇▇▇▇▇▇▇▇▇▇▇▇ 7.39 6: e ▇▇▇▇▇▇▇▇▇▇▇▇▇ 6.73 7: s ▇▇▇▇▇▇▇▇▇▇▇▇ 6.22 8: l ▇▇▇▇▇▇▇▇▇ 4.83 9: o ▇▇▇▇▇▇▇▇▇ 4.65 10: u ▇▇▇▇▇▇▇▇ 4.11 11: k ▇▇▇▇▇▇▇▇ 4.10 12: ä ▇▇▇▇▇▇▇ 3.45 13: m ▇▇▇▇▇ 2.70 14: r ▇▇▇▇ 2.25 15: v ▇▇▇▇ 1.83 16: h ▇▇▇ 1.72 17: . ▇▇▇ 1.65 18: p ▇▇▇ 1.54 19: j ▇▇▇ 1.54 20: y ▇▇▇ 1.39 21: d ▇▇ 0.87 22: , ▇ 0.69 23: ö ▇ 0.36 24: 1 ▇ 0.34 25: 0 ▇ 0.30 26: g ▇ 0.30 27: - ▇ 0.27 28: c 0.24 29: ⏎ 0.24 30: b 0.23 31: 9 0.21 32: ? 0.20 33: " 0.20 34: 2 0.19 35: f 0.15 36: 8 0.09 37: 5 0.09 38: 3 0.08 39: w 0.08 40: 4 0.08 41: 7 0.08 42: 6 0.08 43: ! 0.07 44: ) 0.07 45: ( 0.07 46: : 0.06 47: z 0.04 48: x 0.02 49: 0.01 50: q 0.01 51: / 0.01 52: ; 0.00 53: % 0.00 54: + 0.00 55: = 0.00 56: & 0.00 57: [ 0.00 58: ] 0.00 59: * 0.00 60: _ 0.00 61: # 0.00 62: | 0.00 63: > 0.00 64: $ 0.00 65: < 0.00 66: ~ 0.00 67: € 0.00 68: @ 0.00 69: } 0.00 70: { 0.00 71: ` 0.00 72: ^ 0.00 73: 0.00

最常见的bigrams

──────────────────── finnish ───────────────────── 1: n␣ ▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇ 3.07 2: a␣ ▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇ 2.10 3: en ▇▇▇▇▇▇▇▇▇▇▇▇ 1.66 4: in ▇▇▇▇▇▇▇▇▇▇▇▇ 1.64 5: ta ▇▇▇▇▇▇▇▇▇▇▇ 1.50 6: .␣ ▇▇▇▇▇▇▇▇▇▇ 1.38 7: is ▇▇▇▇▇▇▇▇▇ 1.31 8: an ▇▇▇▇▇▇▇▇▇ 1.29 9: si ▇▇▇▇▇▇▇▇▇ 1.21 10: ␣k ▇▇▇▇▇▇▇▇▇ 1.19 11: st ▇▇▇▇▇▇▇▇ 1.11 12: ␣s ▇▇▇▇▇▇▇▇ 1.10 13: i␣ ▇▇▇▇▇▇▇▇ 1.07 14: ␣t ▇▇▇▇▇▇▇ 1.00 15: tt ▇▇▇▇▇▇▇ 0.96 16: ␣o ▇▇▇▇▇▇▇ 0.94 17: it ▇▇▇▇▇▇▇ 0.94 18: ␣m ▇▇▇▇▇▇▇ 0.93 19: aa ▇▇▇▇▇▇▇ 0.93 20: ä␣ ▇▇▇▇▇▇ 0.90 21: ka ▇▇▇▇▇▇ 0.89 22: ll ▇▇▇▇▇▇ 0.88 23: se ▇▇▇▇▇▇ 0.86 24: sa ▇▇▇▇▇▇ 0.86 25: ␣j ▇▇▇▇▇▇ 0.86 26: on ▇▇▇▇▇▇ 0.83 27: al ▇▇▇▇▇▇ 0.81 28: li ▇▇▇▇▇▇ 0.81 29: te ▇▇▇▇▇▇ 0.81 30: ai ▇▇▇▇▇▇ 0.79 31: tä ▇▇▇▇▇▇ 0.78 32: ti ▇▇▇▇▇ 0.76 33: ␣v ▇▇▇▇▇ 0.75 34: la ▇▇▇▇▇ 0.74 35: ja ▇▇▇▇▇ 0.73 36: va ▇▇▇▇▇ 0.72 37: ␣p ▇▇▇▇▇ 0.72 38: el ▇▇▇▇▇ 0.72 39: ␣h ▇▇▇▇▇ 0.68 40: et ▇▇▇▇▇ 0.67

最常见的bigrams（忽略空格）

──────────────────── finnish ───────────────────── 1: en ▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇ 2.20 2: in ▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇ 2.17 3: ta ▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇ 1.99 4: is ▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇ 1.74 5: an ▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇ 1.71 6: si ▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇ 1.60 7: st ▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇ 1.47 8: tt ▇▇▇▇▇▇▇▇▇▇▇▇▇ 1.27 9: it ▇▇▇▇▇▇▇▇▇▇▇▇ 1.24 10: aa ▇▇▇▇▇▇▇▇▇▇▇▇ 1.23 11: ka ▇▇▇▇▇▇▇▇▇▇▇▇ 1.18 12: ll ▇▇▇▇▇▇▇▇▇▇▇▇ 1.17 13: se ▇▇▇▇▇▇▇▇▇▇▇ 1.14 14: sa ▇▇▇▇▇▇▇▇▇▇▇ 1.13 15: on ▇▇▇▇▇▇▇▇▇▇▇ 1.10 16: al ▇▇▇▇▇▇▇▇▇▇▇ 1.08 17: li ▇▇▇▇▇▇▇▇▇▇▇ 1.07 18: te ▇▇▇▇▇▇▇▇▇▇▇ 1.07 19: ai ▇▇▇▇▇▇▇▇▇▇ 1.04 20: tä ▇▇▇▇▇▇▇▇▇▇ 1.04 21: ti ▇▇▇▇▇▇▇▇▇▇ 1.00 22: la ▇▇▇▇▇▇▇▇▇▇ 0.98 23: ja ▇▇▇▇▇▇▇▇▇▇ 0.96 24: va ▇▇▇▇▇▇▇▇▇▇ 0.96 25: el ▇▇▇▇▇▇▇▇▇▇ 0.96 26: et ▇▇▇▇▇▇▇▇▇ 0.89 27: mi ▇▇▇▇▇▇▇▇▇ 0.87 28: ol ▇▇▇▇▇▇▇▇ 0.84 29: le ▇▇▇▇▇▇▇▇ 0.83 30: oi ▇▇▇▇▇▇▇▇ 0.81 31: ne ▇▇▇▇▇▇▇▇ 0.80 32: ss ▇▇▇▇▇▇▇▇ 0.79 33: tu ▇▇▇▇▇▇▇▇ 0.76 34: ma ▇▇▇▇▇▇▇▇ 0.75 35: as ▇▇▇▇▇▇▇ 0.74 36: än ▇▇▇▇▇▇▇ 0.74 37: ku ▇▇▇▇▇▇▇ 0.73 38: ko ▇▇▇▇▇▇▇ 0.70 39: ii ▇▇▇▇▇▇

搜集汇总

数据集介绍

构建方式

Granite Finnish Ngrams数据集的构建基于芬兰语的OpenSubtitles 2017语料库和芬兰语Wikipedia语料库。这两个语料库分别以33.333%和66.666%的比例混合，经过清洗去除非典型字符后，生成基于字符的ngrams（unigrams, bigrams, trigrams）。这些ngrams用于开发Granite布局，并与Keyboard Layout Optimizer兼容。

特点

该数据集的主要特点在于其基于字符的ngrams，涵盖了芬兰语中最常见的unigrams、bigrams和trigrams。这些ngrams不仅展示了芬兰语的词汇频率分布，还为键盘布局优化提供了重要的数据支持。此外，数据集的混合语料库结构确保了数据的多样性和代表性。

使用方法

Granite Finnish Ngrams数据集可用于多种自然语言处理任务，如语言模型训练、文本生成和键盘布局优化。用户可以通过granite-tools中的ngram_show工具查看最常见的ngrams，并根据这些数据进行进一步的分析和应用。数据集的兼容性使其能够无缝集成到现有的自然语言处理框架中。

背景与挑战

背景概述

Granite Finnish Ngrams数据集是由Fohrloop团队创建的，旨在支持Granite Layout的开发，该布局与Dario Götz的Keyboard Layout Optimizer兼容。该数据集包含了芬兰语的字符级ngrams（包括unigrams、bigrams和trigrams），并从非典型字符中进行了清洗。数据集的构建基于两个主要语料库：33.333%的Finnish OpenSubtitles 2017语料库和66.666%的Finnish Wikipedia语料库。这些ngrams不仅用于优化键盘布局，还对芬兰语的自然语言处理研究具有重要意义。

当前挑战

Granite Finnish Ngrams数据集在构建过程中面临多个挑战。首先，数据清洗过程需要精确识别和去除非典型字符，以确保ngrams的准确性和代表性。其次，语料库的混合使用带来了数据分布不均的问题，需要在分析时进行权重调整。此外，芬兰语特有的语法结构和字符组合增加了ngrams生成的复杂性，要求算法具备高度的语言敏感性。最后，数据集的规模和多样性对存储和处理能力提出了较高的要求，尤其是在大规模自然语言处理任务中。

常用场景

经典使用场景

Granite Finnish Ngrams数据集的经典使用场景主要集中在自然语言处理领域，特别是针对芬兰语的语言模型优化。该数据集通过提供芬兰语的unigrams、bigrams和trigrams，为研究人员和开发者提供了丰富的语言特征，从而能够构建更为精确的语言模型。这些ngrams数据常用于训练和评估芬兰语的文本生成模型、机器翻译系统以及语音识别系统，极大地提升了这些应用的性能和准确性。

实际应用

Granite Finnish Ngrams数据集在实际应用中具有广泛的价值。例如，在芬兰语的智能助手和聊天机器人开发中，该数据集可以用于训练对话系统，使其能够更自然地理解和生成芬兰语对话。此外，在芬兰语的搜索引擎优化中，利用这些ngrams数据可以提高搜索结果的相关性和准确性。在教育领域，该数据集还可以用于开发芬兰语学习工具，帮助学习者更好地掌握语言的细微差别和常用表达。

衍生相关工作

Granite Finnish Ngrams数据集的发布催生了一系列相关的研究和工作。例如，基于该数据集，研究人员开发了多种芬兰语的语言模型，这些模型在多项自然语言处理任务中表现优异。此外，该数据集还启发了对其他低资源语言ngrams数据的收集和分析工作，推动了多语言自然语言处理技术的发展。在应用层面，基于这些ngrams数据的产品和服务不断涌现，进一步提升了芬兰语在数字世界的应用广度和深度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集