five

grammatek/multilingual-pl-bert-is-updated

收藏
Hugging Face2024-01-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/grammatek/multilingual-pl-bert-is-updated
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于冰岛语Gigaword语料库,旨在替代现有的冰岛语数据集。原始数据集仅包含52MB的冰岛语维基百科文本,使用了espeak-ng后端进行标准化和音素化处理,但由于espeak-ng的冰岛语模块已过时,导致音标和重音标记不准确。新数据集通过冰岛语语言技术项目改进了标准化和G2P(字素到音素)转换,并扩展了数据来源,包括冰岛语维基百科和News1语料库。数据集经过清洗、去重和语言检测,移除了非冰岛语文本和少于10个词的文档。标准化使用了Regina Normalizer,音素化使用了IceG2P,最终生成了一个包含400,676行的数据集。

该数据集基于冰岛语Gigaword语料库,旨在替代现有的冰岛语数据集。原始数据集仅包含52MB的冰岛语维基百科文本,使用了espeak-ng后端进行标准化和音素化处理,但由于espeak-ng的冰岛语模块已过时,导致音标和重音标记不准确。新数据集通过冰岛语语言技术项目改进了标准化和G2P(字素到音素)转换,并扩展了数据来源,包括冰岛语维基百科和News1语料库。数据集经过清洗、去重和语言检测,移除了非冰岛语文本和少于10个词的文档。标准化使用了Regina Normalizer,音素化使用了IceG2P,最终生成了一个包含400,676行的数据集。
提供机构:
grammatek
原始信息汇总

数据集介绍

该数据集源自冰岛语Gigaword语料库,旨在作为现有数据集的更全面替代品。原始数据集仅基于52MB的冰岛语维基百科文本,使用espeak-ng后端进行标准化和音素化处理。然而,espeak-ng的冰岛语模块已超过十年未更新,使用过时的IPA方言和简化的重音标记方法,导致音素转录不准确。

通过冰岛语言技术计划,冰岛语的标准化和G2P(字素到音素)转换取得了显著进展。该计划开发的工具已被广泛用于提升数据集的质量。

数据集内容

该数据集在规模上显著超越其前身,不仅包含相对较小的冰岛语维基百科文本,还包含广泛的冰岛语Gigaword语料库内容。具体来说,我们通过从News1语料库中添加材料来丰富维基百科文本。为了遵守512MB的原始文本大小限制,我们将完整的维基百科文本与News1语料库中的随机打乱文档合并,直到达到大小上限。

数据集总共包含400,676行,每行对应IGC语料库XML文件中的相关文档。

清洗

在使用Bert分词器处理之前,数据集经历了清洗、去重和语言检测,以过滤掉大部分非冰岛语文本。包含少于10个单词的文档也被移除。这一预处理步骤导致维基百科语料库中8,146个文档(约14.7%)和News1语料库中28,869个文档(约1.9%)被移除。维基百科语料库的显著减少主要是由于最小单词数标准。然而,这并未显著减少总文本量,仅从52.3MB减少到49.68MB,减少了约5%。

标准化

标准化过程中,我们采用了Regina Normalizer,这是一个基于BI-LSTM词性标注器的工具。尽管这使得处理过程较为耗时,但适应性调整对于处理IGC中多样且有时不干净的文本是必要的。处理约2.5GB的原始文本大约需要一天时间,使用50个CPU核心。

音素化

音素化使用IceG2P进行,这也是基于BI-LSTM模型的工具。我们进行了调整,以确保IPA音素集输出与其他PL-Bert数据集中使用的音素集一致。最初,我们从标准化后的维基百科和News1语料库中创建并完善了一个新词汇表。随后,BI-LSTM模型被用于为该词典生成音素转录。我们还通过复合分析增强了重音标记并加入了次重音。

这一努力的一个重要副产品是显著改进的G2P词典,包含超过210万个转录,我们计划将其整合到G2P模块和涉及冰岛语G2P的各种开源项目中。

最终,为了确保文本的一致性,所有包含不正确字素到音素转录的段落都被排除在数据集之外。

许可证

该数据集以与原始源材料相同的CC-by-4.0许可证发布。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作