grammatek/multilingual-pl-bert-is-updated
收藏数据集介绍
该数据集源自冰岛语Gigaword语料库,旨在作为现有数据集的更全面替代品。原始数据集仅基于52MB的冰岛语维基百科文本,使用espeak-ng后端进行标准化和音素化处理。然而,espeak-ng的冰岛语模块已超过十年未更新,使用过时的IPA方言和简化的重音标记方法,导致音素转录不准确。
通过冰岛语言技术计划,冰岛语的标准化和G2P(字素到音素)转换取得了显著进展。该计划开发的工具已被广泛用于提升数据集的质量。
数据集内容
该数据集在规模上显著超越其前身,不仅包含相对较小的冰岛语维基百科文本,还包含广泛的冰岛语Gigaword语料库内容。具体来说,我们通过从News1语料库中添加材料来丰富维基百科文本。为了遵守512MB的原始文本大小限制,我们将完整的维基百科文本与News1语料库中的随机打乱文档合并,直到达到大小上限。
数据集总共包含400,676行,每行对应IGC语料库XML文件中的相关文档。
清洗
在使用Bert分词器处理之前,数据集经历了清洗、去重和语言检测,以过滤掉大部分非冰岛语文本。包含少于10个单词的文档也被移除。这一预处理步骤导致维基百科语料库中8,146个文档(约14.7%)和News1语料库中28,869个文档(约1.9%)被移除。维基百科语料库的显著减少主要是由于最小单词数标准。然而,这并未显著减少总文本量,仅从52.3MB减少到49.68MB,减少了约5%。
标准化
标准化过程中,我们采用了Regina Normalizer,这是一个基于BI-LSTM词性标注器的工具。尽管这使得处理过程较为耗时,但适应性调整对于处理IGC中多样且有时不干净的文本是必要的。处理约2.5GB的原始文本大约需要一天时间,使用50个CPU核心。
音素化
音素化使用IceG2P进行,这也是基于BI-LSTM模型的工具。我们进行了调整,以确保IPA音素集输出与其他PL-Bert数据集中使用的音素集一致。最初,我们从标准化后的维基百科和News1语料库中创建并完善了一个新词汇表。随后,BI-LSTM模型被用于为该词典生成音素转录。我们还通过复合分析增强了重音标记并加入了次重音。
这一努力的一个重要副产品是显著改进的G2P词典,包含超过210万个转录,我们计划将其整合到G2P模块和涉及冰岛语G2P的各种开源项目中。
最终,为了确保文本的一致性,所有包含不正确字素到音素转录的段落都被排除在数据集之外。
许可证
该数据集以与原始源材料相同的CC-by-4.0许可证发布。



