classla/ParlaSpeech-RS
收藏Hugging Face2025-12-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/classla/ParlaSpeech-RS
下载链接
链接失效反馈官方服务:
资源简介:
ParlaSpeech-RS 1.0数据集是从塞尔维亚议会会议记录和YouTube频道上的录音构建的。该数据集包含音频片段和对应的文本转录,文本转录中包含单词级别的对齐信息。数据集还提供了说话者的元数据信息,如日期、姓名、性别、出生年份、党派归属等。此外,数据集还提供了文本的规范化版本和西里尔字母版本的转录,以适应塞尔维亚语的双文字特性。
提供机构:
classla
原始信息汇总
塞尔维亚议会口语数据集 ParlaSpeech-RS 1.0
数据集信息
特征
- id: 字符串类型
- audio: 音频类型,采样率为16000
- text: 字符串类型
- text_cyrillic: 字符串类型
- text_normalised: 字符串类型
- text_cyrillic_normalised: 字符串类型
- words: 列表类型,包含以下子特征:
- char_e: 整数类型
- char_s: 整数类型
- time_e: 浮点数类型
- time_s: 浮点数类型
- audio_length: 浮点数类型
- date: 字符串类型
- speaker_name: 字符串类型
- speaker_gender: 字符串类型
- speaker_birth: 字符串类型
- speaker_party: 字符串类型
- party_orientation: 字符串类型
- party_status: 字符串类型
分割
- train: 包含277764个样本,总大小为68987025245.82字节
大小
- 下载大小: 57663350605字节
- 数据集大小: 68987025245.82字节
配置
- default: 数据文件路径为
data/train-*
数据集描述
- 数据集来源于塞尔维亚议会会议记录的转录文本和塞尔维亚议会的YouTube频道上的录音。
- 数据集包含与转录文本中特定句子对应的音频片段,并具有单词级别的对齐信息,包括字符和毫秒的起始和结束偏移。
- 序列长度超过30秒的片段已被移除,适用于大多数现代GPU。
- 每个片段通过话语ID和字符偏移量与ParlaMint 4.0语料库关联。
- 数据集包含部分元数据,如日期、发言人姓名、性别、出生年份、党派归属、党派状态和党派倾向。
- 数据集还包括
text_normalised属性,去除了议会评论(如[[Applause]])。 - 数据集还包含两个额外的文本列
text_cyrillic和text_cyrillic_normalised,用于塞尔维亚语的西里尔字母转写。
引用
@inproceedings{ljubesic-etal-2022-parlaspeech, title = "{P}arla{S}peech-{HR} - a Freely Available {ASR} Dataset for {C}roatian Bootstrapped from the {P}arla{M}int Corpus", author = "Ljube{v{s}}i{c}, Nikola and Kor{v{z}}inek, Danijel and Rupnik, Peter and Jazbec, Ivo-Pavao", editor = "Fi{v{s}}er, Darja and Eskevich, Maria and Lenardi{v{c}}, Jakob and de Jong, Franciska", booktitle = "Proceedings of the Workshop ParlaCLARIN III within the 13th Language Resources and Evaluation Conference", month = jun, year = "2022", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2022.parlaclarin-1.16", pages = "111--116", }



