classla/ParlaSpeech-RS

Name: classla/ParlaSpeech-RS
Creator: classla
Published: 2025-12-01 13:48:26
License: 暂无描述

Hugging Face2025-12-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/classla/ParlaSpeech-RS

下载链接

链接失效反馈

官方服务：

资源简介：

ParlaSpeech-RS 1.0数据集是从塞尔维亚议会会议记录和YouTube频道上的录音构建的。该数据集包含音频片段和对应的文本转录，文本转录中包含单词级别的对齐信息。数据集还提供了说话者的元数据信息，如日期、姓名、性别、出生年份、党派归属等。此外，数据集还提供了文本的规范化版本和西里尔字母版本的转录，以适应塞尔维亚语的双文字特性。

提供机构：

classla

原始信息汇总

塞尔维亚议会口语数据集 ParlaSpeech-RS 1.0

数据集信息

特征

id: 字符串类型
audio: 音频类型，采样率为16000
text: 字符串类型
text_cyrillic: 字符串类型
text_normalised: 字符串类型
text_cyrillic_normalised: 字符串类型
words: 列表类型，包含以下子特征：
- char_e: 整数类型
- char_s: 整数类型
- time_e: 浮点数类型
- time_s: 浮点数类型
audio_length: 浮点数类型
date: 字符串类型
speaker_name: 字符串类型
speaker_gender: 字符串类型
speaker_birth: 字符串类型
speaker_party: 字符串类型
party_orientation: 字符串类型
party_status: 字符串类型

分割

train: 包含277764个样本，总大小为68987025245.82字节

大小

下载大小: 57663350605字节
数据集大小: 68987025245.82字节

配置

default: 数据文件路径为data/train-*

数据集描述

数据集来源于塞尔维亚议会会议记录的转录文本和塞尔维亚议会的YouTube频道上的录音。
数据集包含与转录文本中特定句子对应的音频片段，并具有单词级别的对齐信息，包括字符和毫秒的起始和结束偏移。
序列长度超过30秒的片段已被移除，适用于大多数现代GPU。
每个片段通过话语ID和字符偏移量与ParlaMint 4.0语料库关联。
数据集包含部分元数据，如日期、发言人姓名、性别、出生年份、党派归属、党派状态和党派倾向。
数据集还包括text_normalised属性，去除了议会评论（如[[Applause]]）。
数据集还包含两个额外的文本列text_cyrillic和text_cyrillic_normalised，用于塞尔维亚语的西里尔字母转写。

引用

@inproceedings{ljubesic-etal-2022-parlaspeech, title = "{P}arla{S}peech-{HR} - a Freely Available {ASR} Dataset for {C}roatian Bootstrapped from the {P}arla{M}int Corpus", author = "Ljube{v{s}}i{c}, Nikola and Kor{v{z}}inek, Danijel and Rupnik, Peter and Jazbec, Ivo-Pavao", editor = "Fi{v{s}}er, Darja and Eskevich, Maria and Lenardi{v{c}}, Jakob and de Jong, Franciska", booktitle = "Proceedings of the Workshop ParlaCLARIN III within the 13th Language Resources and Evaluation Conference", month = jun, year = "2022", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2022.parlaclarin-1.16", pages = "111--116", }

5,000+

优质数据集

54 个

任务类型

进入经典数据集