five

gttsehu/Albayzin-2024-BBS-S2T

收藏
Hugging Face2024-06-11 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/gttsehu/Albayzin-2024-BBS-S2T
下载链接
链接失效反馈
官方服务:
资源简介:
Albayzin 2024 Bilingual Basque-Spanish Speech to Text (BBS-S2T) Challenge数据集基于gttsehu/basque_parliament_1数据集,包含四个分割:train、train_clean、dev和test。该数据集主要用于巴斯克语和西班牙语的双语语音到文本转换挑战。训练和调优集包含自动提取的音频片段,其中train_clean分割包含高度可靠的转录。开发集和测试集包含手动验证的音频片段。数据集还提供了详细的下载和使用说明,包括通过Huggingface Datasets库或手动下载的方式。

Albayzin 2024 Bilingual Basque-Spanish Speech to Text (BBS-S2T) Challenge数据集基于gttsehu/basque_parliament_1数据集,包含四个分割:train、train_clean、dev和test。该数据集主要用于巴斯克语和西班牙语的双语语音到文本转换挑战。训练和调优集包含自动提取的音频片段,其中train_clean分割包含高度可靠的转录。开发集和测试集包含手动验证的音频片段。数据集还提供了详细的下载和使用说明,包括通过Huggingface Datasets库或手动下载的方式。
提供机构:
gttsehu
原始信息汇总

Albayzin 2024 Bilingual Basque-Spanish Speech to Text (BBS-S2T) Challenge

数据集概述

  • 名称: Albayzin 2024 Bilingual Basque-Spanish Speech to Text (BBS-S2T) Challenge
  • 语言:
    • 巴斯克语 (eu)
    • 西班牙语 (es)
  • 许可证: MIT

数据集结构

  • 训练和调优集: 基于 gttsehu/basque_parliament_1 数据集
  • 数据分割:
    1. train: 749,945 个音频片段 (自动提取)
    2. train_clean: 661,871 个音频片段 (自动提取,高可靠性转录)
    3. dev: 4,095 个音频片段 (手动验证)
    4. test: 5,152 个音频片段 (手动验证)

数据下载

  • 自动下载: 使用 Huggingface Datasets 库 python from datasets import load_dataset ds = load_dataset("gttsehu/basque_parliament_1")

  • 手动下载: 通过 git clone 命令 bash git clone https://huggingface.co/datasets/gttsehu/basque_parliament_1

    • 注意: 需要安装 git-lfs 以处理大型音频文件

数据文件结构

basque_parliament_1/ ├── audio │   ├── dev_0.tar │   ├── test_0.tar │   ├── train_0.tar │   ├── train_10.tar │   ├── train_1.tar │   ├── train_2.tar │   ├── train_3.tar │   ├── train_4.tar │   ├── train_5.tar │   ├── train_6.tar │   ├── train_7.tar │   ├── train_8.tar │   └── train_9.tar ├── basque_parliament_1.py ├── languages.py ├── metadata │   ├── dev.tsv │   ├── test.tsv │   ├── train_clean.tsv │   └── train.tsv ├── README.md └── release_stats.py

元数据文件

  • 内容: 每个索引文件包含六个字段,以制表符分隔
    1. 音频文件路径
    2. 语言 (es: 西班牙语, eu: 巴斯克语, bi: 双语)
    3. 说话者ID
    4. 转录质量指标 (PhoneRecognitionRate)
    5. 片段长度 (秒)
    6. 转录文本

path language speaker_id PRR length sentence 10-007_20130124_01/10-007_20130124_01_83.92_93.84.mp3 eu 0 100.00 9.92 egun on guztioi bilkurari hasiera emango diogu gai zerrendako lehenengo puntua bateraezintasunen 10-007_20130124_01/10-007_20130124_01_95.49_105.34.mp3 eu 416 100.00 9.85 euskadiren izeneko senatari izendatzeko hautagaien bateragarritasun egoerari buruz eztabaida eta behin betiko ebazpena eta hala badagokio senatariak 10-007_20130124_01/10-007_20130124_01_105.35_112.10.mp3 eu 416 98.46 6.75 hautatzeko botazioa batzordeko kidearen batek irizpidearen alde hitz egin nahi du 10-007_20130124_01/10-007_20130124_01_117.61_127.29.mp3 eu 416 100.00 9.68 aurka hitz egin nahi du bost minutuko txanda daukazue eta mistoa upyd hasiko da maneiro 10-007_20130124_01/10-007_20130124_01_149.82_160.12.mp3 es 290 100.00 10.30 buenos días a todas y a todos utilizo este turno para alzar la voz ante la pretensión de eh bildu de que ...

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作