five

classla/ParlaSpeech-HR

收藏
Hugging Face2025-07-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/classla/ParlaSpeech-HR
下载链接
链接失效反馈
官方服务:
资源简介:
ParlaSpeech-HR 2.0数据集是从克罗地亚议会会议的转录文本和克罗地亚议会YouTube频道的录音中构建的。数据集包含音频片段,这些片段与转录文本中的特定句子相对应。转录文本包含单词级别的对齐信息,每个实例都包含字符和毫秒级的开始和结束偏移量,便于将长句子分割为更短的片段,适用于自动语音识别(ASR)和其他内存敏感的应用。数据集还包含与ParlaMint 4.0语料库的引用信息,以及演讲者的元数据信息,如日期、演讲者姓名、性别、出生年份、党派归属、党派状态和党派倾向等。此外,数据集还提供了一个`text_normalised`属性,用于移除议会评论(如`[[Applause]]`等)。

ParlaSpeech-HR 2.0数据集是从克罗地亚议会会议的转录文本和克罗地亚议会YouTube频道的录音中构建的。数据集包含音频片段,这些片段与转录文本中的特定句子相对应。转录文本包含单词级别的对齐信息,每个实例都包含字符和毫秒级的开始和结束偏移量,便于将长句子分割为更短的片段,适用于自动语音识别(ASR)和其他内存敏感的应用。数据集还包含与ParlaMint 4.0语料库的引用信息,以及演讲者的元数据信息,如日期、演讲者姓名、性别、出生年份、党派归属、党派状态和党派倾向等。此外,数据集还提供了一个`text_normalised`属性,用于移除议会评论(如`[[Applause]]`等)。
提供机构:
classla
原始信息汇总

数据集概述

数据集信息

  • 特征列表:

    • id: 字符串类型
    • audio: 音频类型,采样率为16000
    • text: 字符串类型
    • text_normalised: 字符串类型
    • words: 列表类型,包含以下子特征:
      • char_e: 整数类型
      • char_s: 整数类型
      • time_e: 浮点数类型
      • time_s: 浮点数类型
    • audio_length: 浮点数类型
    • date: 字符串类型
    • speaker_name: 字符串类型
    • speaker_gender: 字符串类型
    • speaker_birth: 字符串类型
    • speaker_party: 字符串类型
    • party_orientation: 字符串类型
    • party_status: 字符串类型
  • 数据分割:

    • train: 包含867581个样本,总字节数为162874686121.866
  • 数据集大小:

    • 下载大小: 179092718936字节
    • 数据集大小: 162874686121.866字节
  • 配置:

    • default配置:
      • 数据文件路径: data/train-*

数据集描述

  • 来源: 数据集基于Croatian part of the ParlaMint corpus的议会会议记录和Croatian Parliaments YouTube频道的议会录音构建。
  • 内容: 包含与转录文本对应的音频段,每个实例包含字符和毫秒的起始和结束偏移,允许进一步分割长句为短句。
  • 特征: 每个段落通过utterance ID和字符偏移与ParlaMint 4.0 corpus关联。
  • 元数据: 包含日期、发言人姓名、性别、出生年份、党派归属、党派状态和党派方向。
  • 文本处理: 包含text_normalised属性,移除了议会评论(如[[Applause]])。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作