five

somerandomguyontheweb/multilingual-pl-bert-be-updated

收藏
Hugging Face2023-12-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/somerandomguyontheweb/multilingual-pl-bert-be-updated
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是对原有数据集的一个替换版本,主要修改了`phonemes`部分,而`input_ids`保持不变。大约95%的转录内容进行了适当的修正,剩余的5%则从原数据集中复制而来,并进行了轻微的符号调整。修正的转录基于两个现有的白俄罗斯语G2P工具的输出,并结合了它们的IPA字符集。文件中还详细描述了白俄罗斯语声音在IPA中的表示方式、重音标记的位置、标点符号的处理、数字和缩写的转录方式,以及如何处理其他语言中的单词。此外,还提到了一些无法精炼的实例,如专有名词、字母数字字符串、URL等。

该数据集是对原有数据集的一个替换版本,主要修改了`phonemes`部分,而`input_ids`保持不变。大约95%的转录内容进行了适当的修正,剩余的5%则从原数据集中复制而来,并进行了轻微的符号调整。修正的转录基于两个现有的白俄罗斯语G2P工具的输出,并结合了它们的IPA字符集。文件中还详细描述了白俄罗斯语声音在IPA中的表示方式、重音标记的位置、标点符号的处理、数字和缩写的转录方式,以及如何处理其他语言中的单词。此外,还提到了一些无法精炼的实例,如专有名词、字母数字字符串、URL等。
提供机构:
somerandomguyontheweb
原始信息汇总

数据集概述

本数据集是对原数据集的修正版本,主要针对phonemes进行了修改,而input_ids保持不变。约95%的转录文本已根据需要进行了修正,剩余约5%的转录文本从原数据集中复制并进行了轻微的符号修改。

修正细节

  • 修正的转录文本基于两个现有的白俄罗斯语G2P工具的输出:corpus.bybnkorpus.info。这两个工具使用的IPA字符集略有不同,因此将两者的输出进行了相同的格式化处理。
  • 遵循以下约定表示白俄罗斯语的IPA音标:
    • [о] 表示为 ɔ
    • [э] 表示为 ɛ(无论前面的辅音是软腭音还是硬腭音)
    • 软腭音 [л] 表示为 ɫ
    • 硬腭音 [л] 表示为
    • [ч] 表示为 t͡ʂ
    • [ц] 表示为 t͡s
    • 爆破音 [ґ] 表示为 ɡ
  • 重音标记位于重读音节之前,重读元音前可能有一个或多个辅音。
  • 标点符号(大部分)保留在转录文本中,[UNK] 标记用空字符串表示。
  • 阿拉伯数字和罗马数字被转录为相应的白俄罗斯数字。由于上下文非常多样,可能存在性别/数字/格的错误。同样,一些缩写(数十个最常见的缩写)被转录为相应的完整单词或短语。
  • 俄语和英语单词使用espeak-ng进行转录。未对偶然出现在白俄罗斯语文本中的其他语言单词进行单独处理。
  • 在未能改进的约5%的困难实例中,大多数是专有名词、字母数字字符串、URL等。此外,由于时间不足,未能对可变重音的词项进行消歧,例如 му́зыка 音乐 和 музы́ка 音乐家;这些词项的转录文本也是从原数据集中复制的。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作