classla/ParlaSpeech-HR
收藏Hugging Face2025-07-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/classla/ParlaSpeech-HR
下载链接
链接失效反馈官方服务:
资源简介:
ParlaSpeech-HR 2.0数据集是从克罗地亚议会会议的转录文本和克罗地亚议会YouTube频道的录音中构建的。数据集包含音频片段,这些片段与转录文本中的特定句子相对应。转录文本包含单词级别的对齐信息,每个实例都包含字符和毫秒级的开始和结束偏移量,便于将长句子分割为更短的片段,适用于自动语音识别(ASR)和其他内存敏感的应用。数据集还包含与ParlaMint 4.0语料库的引用信息,以及演讲者的元数据信息,如日期、演讲者姓名、性别、出生年份、党派归属、党派状态和党派倾向等。此外,数据集还提供了一个`text_normalised`属性,用于移除议会评论(如`[[Applause]]`等)。
ParlaSpeech-HR 2.0数据集是从克罗地亚议会会议的转录文本和克罗地亚议会YouTube频道的录音中构建的。数据集包含音频片段,这些片段与转录文本中的特定句子相对应。转录文本包含单词级别的对齐信息,每个实例都包含字符和毫秒级的开始和结束偏移量,便于将长句子分割为更短的片段,适用于自动语音识别(ASR)和其他内存敏感的应用。数据集还包含与ParlaMint 4.0语料库的引用信息,以及演讲者的元数据信息,如日期、演讲者姓名、性别、出生年份、党派归属、党派状态和党派倾向等。此外,数据集还提供了一个`text_normalised`属性,用于移除议会评论(如`[[Applause]]`等)。
提供机构:
classla
原始信息汇总
数据集概述
数据集信息
-
特征列表:
id: 字符串类型audio: 音频类型,采样率为16000text: 字符串类型text_normalised: 字符串类型words: 列表类型,包含以下子特征:char_e: 整数类型char_s: 整数类型time_e: 浮点数类型time_s: 浮点数类型
audio_length: 浮点数类型date: 字符串类型speaker_name: 字符串类型speaker_gender: 字符串类型speaker_birth: 字符串类型speaker_party: 字符串类型party_orientation: 字符串类型party_status: 字符串类型
-
数据分割:
train: 包含867581个样本,总字节数为162874686121.866
-
数据集大小:
- 下载大小: 179092718936字节
- 数据集大小: 162874686121.866字节
-
配置:
default配置:- 数据文件路径:
data/train-*
- 数据文件路径:
数据集描述
- 来源: 数据集基于Croatian part of the ParlaMint corpus的议会会议记录和Croatian Parliaments YouTube频道的议会录音构建。
- 内容: 包含与转录文本对应的音频段,每个实例包含字符和毫秒的起始和结束偏移,允许进一步分割长句为短句。
- 特征: 每个段落通过utterance ID和字符偏移与ParlaMint 4.0 corpus关联。
- 元数据: 包含日期、发言人姓名、性别、出生年份、党派归属、党派状态和党派方向。
- 文本处理: 包含
text_normalised属性,移除了议会评论(如[[Applause]])。



