five

classla/ParlaSpeech-RS

收藏
Hugging Face2025-12-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/classla/ParlaSpeech-RS
下载链接
链接失效反馈
官方服务:
资源简介:
ParlaSpeech-RS 1.0数据集是从塞尔维亚议会会议记录和YouTube频道上的录音构建的。该数据集包含音频片段和对应的文本转录,文本转录中包含单词级别的对齐信息。数据集还提供了说话者的元数据信息,如日期、姓名、性别、出生年份、党派归属等。此外,数据集还提供了文本的规范化版本和西里尔字母版本的转录,以适应塞尔维亚语的双文字特性。
提供机构:
classla
原始信息汇总

塞尔维亚议会口语数据集 ParlaSpeech-RS 1.0

数据集信息

特征

  • id: 字符串类型
  • audio: 音频类型,采样率为16000
  • text: 字符串类型
  • text_cyrillic: 字符串类型
  • text_normalised: 字符串类型
  • text_cyrillic_normalised: 字符串类型
  • words: 列表类型,包含以下子特征:
    • char_e: 整数类型
    • char_s: 整数类型
    • time_e: 浮点数类型
    • time_s: 浮点数类型
  • audio_length: 浮点数类型
  • date: 字符串类型
  • speaker_name: 字符串类型
  • speaker_gender: 字符串类型
  • speaker_birth: 字符串类型
  • speaker_party: 字符串类型
  • party_orientation: 字符串类型
  • party_status: 字符串类型

分割

  • train: 包含277764个样本,总大小为68987025245.82字节

大小

  • 下载大小: 57663350605字节
  • 数据集大小: 68987025245.82字节

配置

  • default: 数据文件路径为data/train-*

数据集描述

  • 数据集来源于塞尔维亚议会会议记录的转录文本和塞尔维亚议会的YouTube频道上的录音。
  • 数据集包含与转录文本中特定句子对应的音频片段,并具有单词级别的对齐信息,包括字符和毫秒的起始和结束偏移。
  • 序列长度超过30秒的片段已被移除,适用于大多数现代GPU。
  • 每个片段通过话语ID和字符偏移量与ParlaMint 4.0语料库关联。
  • 数据集包含部分元数据,如日期、发言人姓名、性别、出生年份、党派归属、党派状态和党派倾向。
  • 数据集还包括text_normalised属性,去除了议会评论(如[[Applause]])。
  • 数据集还包含两个额外的文本列text_cyrillictext_cyrillic_normalised,用于塞尔维亚语的西里尔字母转写。

引用

@inproceedings{ljubesic-etal-2022-parlaspeech, title = "{P}arla{S}peech-{HR} - a Freely Available {ASR} Dataset for {C}roatian Bootstrapped from the {P}arla{M}int Corpus", author = "Ljube{v{s}}i{c}, Nikola and Kor{v{z}}inek, Danijel and Rupnik, Peter and Jazbec, Ivo-Pavao", editor = "Fi{v{s}}er, Darja and Eskevich, Maria and Lenardi{v{c}}, Jakob and de Jong, Franciska", booktitle = "Proceedings of the Workshop ParlaCLARIN III within the 13th Language Resources and Evaluation Conference", month = jun, year = "2022", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2022.parlaclarin-1.16", pages = "111--116", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作