gttsehu/Albayzin-2024-BBS-S2T
收藏Albayzin 2024 Bilingual Basque-Spanish Speech to Text (BBS-S2T) Challenge
数据集概述
- 名称: Albayzin 2024 Bilingual Basque-Spanish Speech to Text (BBS-S2T) Challenge
- 语言:
- 巴斯克语 (eu)
- 西班牙语 (es)
- 许可证: MIT
数据集结构
- 训练和调优集: 基于
gttsehu/basque_parliament_1数据集 - 数据分割:
- train: 749,945 个音频片段 (自动提取)
- train_clean: 661,871 个音频片段 (自动提取,高可靠性转录)
- dev: 4,095 个音频片段 (手动验证)
- test: 5,152 个音频片段 (手动验证)
数据下载
-
自动下载: 使用 Huggingface Datasets 库 python from datasets import load_dataset ds = load_dataset("gttsehu/basque_parliament_1")
-
手动下载: 通过
git clone命令 bash git clone https://huggingface.co/datasets/gttsehu/basque_parliament_1- 注意: 需要安装
git-lfs以处理大型音频文件
- 注意: 需要安装
数据文件结构
basque_parliament_1/ ├── audio │ ├── dev_0.tar │ ├── test_0.tar │ ├── train_0.tar │ ├── train_10.tar │ ├── train_1.tar │ ├── train_2.tar │ ├── train_3.tar │ ├── train_4.tar │ ├── train_5.tar │ ├── train_6.tar │ ├── train_7.tar │ ├── train_8.tar │ └── train_9.tar ├── basque_parliament_1.py ├── languages.py ├── metadata │ ├── dev.tsv │ ├── test.tsv │ ├── train_clean.tsv │ └── train.tsv ├── README.md └── release_stats.py
元数据文件
- 内容: 每个索引文件包含六个字段,以制表符分隔
- 音频文件路径
- 语言 (
es: 西班牙语,eu: 巴斯克语,bi: 双语) - 说话者ID
- 转录质量指标 (PhoneRecognitionRate)
- 片段长度 (秒)
- 转录文本
path language speaker_id PRR length sentence 10-007_20130124_01/10-007_20130124_01_83.92_93.84.mp3 eu 0 100.00 9.92 egun on guztioi bilkurari hasiera emango diogu gai zerrendako lehenengo puntua bateraezintasunen 10-007_20130124_01/10-007_20130124_01_95.49_105.34.mp3 eu 416 100.00 9.85 euskadiren izeneko senatari izendatzeko hautagaien bateragarritasun egoerari buruz eztabaida eta behin betiko ebazpena eta hala badagokio senatariak 10-007_20130124_01/10-007_20130124_01_105.35_112.10.mp3 eu 416 98.46 6.75 hautatzeko botazioa batzordeko kidearen batek irizpidearen alde hitz egin nahi du 10-007_20130124_01/10-007_20130124_01_117.61_127.29.mp3 eu 416 100.00 9.68 aurka hitz egin nahi du bost minutuko txanda daukazue eta mistoa upyd hasiko da maneiro 10-007_20130124_01/10-007_20130124_01_149.82_160.12.mp3 es 290 100.00 10.30 buenos días a todas y a todos utilizo este turno para alzar la voz ante la pretensión de eh bildu de que ...



