classla/ParlaSpeech-HR

Name: classla/ParlaSpeech-HR
Creator: classla
Published: 2025-07-02 06:01:50
License: 暂无描述

Hugging Face2025-07-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/classla/ParlaSpeech-HR

下载链接

链接失效反馈

官方服务：

资源简介：

ParlaSpeech-HR 2.0数据集是从克罗地亚议会会议的转录文本和克罗地亚议会YouTube频道的录音中构建的。数据集包含音频片段，这些片段与转录文本中的特定句子相对应。转录文本包含单词级别的对齐信息，每个实例都包含字符和毫秒级的开始和结束偏移量，便于将长句子分割为更短的片段，适用于自动语音识别（ASR）和其他内存敏感的应用。数据集还包含与ParlaMint 4.0语料库的引用信息，以及演讲者的元数据信息，如日期、演讲者姓名、性别、出生年份、党派归属、党派状态和党派倾向等。此外，数据集还提供了一个`text_normalised`属性，用于移除议会评论（如`[[Applause]]`等）。

提供机构：

classla

原始信息汇总

数据集概述

数据集信息

特征列表:
- id: 字符串类型
- audio: 音频类型，采样率为16000
- text: 字符串类型
- text_normalised: 字符串类型
- words: 列表类型，包含以下子特征:
  - char_e: 整数类型
  - char_s: 整数类型
  - time_e: 浮点数类型
  - time_s: 浮点数类型
- audio_length: 浮点数类型
- date: 字符串类型
- speaker_name: 字符串类型
- speaker_gender: 字符串类型
- speaker_birth: 字符串类型
- speaker_party: 字符串类型
- party_orientation: 字符串类型
- party_status: 字符串类型
数据分割:
- train: 包含867581个样本，总字节数为162874686121.866
数据集大小:
- 下载大小: 179092718936字节
- 数据集大小: 162874686121.866字节
配置:
- default配置:
  - 数据文件路径: data/train-*

数据集描述

来源: 数据集基于Croatian part of the ParlaMint corpus的议会会议记录和Croatian Parliaments YouTube频道的议会录音构建。
内容: 包含与转录文本对应的音频段，每个实例包含字符和毫秒的起始和结束偏移，允许进一步分割长句为短句。
特征: 每个段落通过utterance ID和字符偏移与ParlaMint 4.0 corpus关联。
元数据: 包含日期、发言人姓名、性别、出生年份、党派归属、党派状态和党派方向。
文本处理: 包含text_normalised属性，移除了议会评论（如[[Applause]]）。

5,000+

优质数据集

54 个

任务类型

进入经典数据集