grammatek/multilingual-pl-bert-is-updated

Name: grammatek/multilingual-pl-bert-is-updated
Creator: grammatek
Published: 2024-01-08 10:08:27
License: 暂无描述

Hugging Face2024-01-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/grammatek/multilingual-pl-bert-is-updated

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集基于冰岛语Gigaword语料库，旨在替代现有的冰岛语数据集。原始数据集仅包含52MB的冰岛语维基百科文本，使用了espeak-ng后端进行标准化和音素化处理，但由于espeak-ng的冰岛语模块已过时，导致音标和重音标记不准确。新数据集通过冰岛语语言技术项目改进了标准化和G2P（字素到音素）转换，并扩展了数据来源，包括冰岛语维基百科和News1语料库。数据集经过清洗、去重和语言检测，移除了非冰岛语文本和少于10个词的文档。标准化使用了Regina Normalizer，音素化使用了IceG2P，最终生成了一个包含400,676行的数据集。

提供机构：

grammatek

原始信息汇总

数据集介绍

该数据集源自冰岛语Gigaword语料库，旨在作为现有数据集的更全面替代品。原始数据集仅基于52MB的冰岛语维基百科文本，使用espeak-ng后端进行标准化和音素化处理。然而，espeak-ng的冰岛语模块已超过十年未更新，使用过时的IPA方言和简化的重音标记方法，导致音素转录不准确。

通过冰岛语言技术计划，冰岛语的标准化和G2P（字素到音素）转换取得了显著进展。该计划开发的工具已被广泛用于提升数据集的质量。

数据集内容

该数据集在规模上显著超越其前身，不仅包含相对较小的冰岛语维基百科文本，还包含广泛的冰岛语Gigaword语料库内容。具体来说，我们通过从News1语料库中添加材料来丰富维基百科文本。为了遵守512MB的原始文本大小限制，我们将完整的维基百科文本与News1语料库中的随机打乱文档合并，直到达到大小上限。

数据集总共包含400,676行，每行对应IGC语料库XML文件中的相关文档。

清洗

在使用Bert分词器处理之前，数据集经历了清洗、去重和语言检测，以过滤掉大部分非冰岛语文本。包含少于10个单词的文档也被移除。这一预处理步骤导致维基百科语料库中8,146个文档（约14.7%）和News1语料库中28,869个文档（约1.9%）被移除。维基百科语料库的显著减少主要是由于最小单词数标准。然而，这并未显著减少总文本量，仅从52.3MB减少到49.68MB，减少了约5%。

标准化

标准化过程中，我们采用了Regina Normalizer，这是一个基于BI-LSTM词性标注器的工具。尽管这使得处理过程较为耗时，但适应性调整对于处理IGC中多样且有时不干净的文本是必要的。处理约2.5GB的原始文本大约需要一天时间，使用50个CPU核心。

音素化

音素化使用IceG2P进行，这也是基于BI-LSTM模型的工具。我们进行了调整，以确保IPA音素集输出与其他PL-Bert数据集中使用的音素集一致。最初，我们从标准化后的维基百科和News1语料库中创建并完善了一个新词汇表。随后，BI-LSTM模型被用于为该词典生成音素转录。我们还通过复合分析增强了重音标记并加入了次重音。

这一努力的一个重要副产品是显著改进的G2P词典，包含超过210万个转录，我们计划将其整合到G2P模块和涉及冰岛语G2P的各种开源项目中。

最终，为了确保文本的一致性，所有包含不正确字素到音素转录的段落都被排除在数据集之外。

许可证

该数据集以与原始源材料相同的CC-by-4.0许可证发布。

5,000+

优质数据集

54 个

任务类型

进入经典数据集