archivartaunik/01Matfieja-03
收藏Hugging Face2026-04-07 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/archivartaunik/01Matfieja-03
下载链接
链接失效反馈官方服务:
资源简介:
---
tags:
- audio
- asr
- subtitles
language:
- be
license: cc-by-4.0
task_categories:
- automatic-speech-recognition
pretty_name: 01.Matfieja-03
---
# 01.Matfieja-03
Датасэт, атрыманы аўтаматычнай нарэзкай аднаго аўдыяфайла па межах субцітраў. Падтрымліваюцца фарматы: SRT, VTT, ASS/SSA, SBV, TTML, MicroDVD (.sub), JSON.
## Змест
- `clips/` — аўдыякліпы
- `metadata.csv` — табліца з палямі: `id, audio, text, speaker, start, end, duration`
## Выкарыстанне
```python
from datasets import load_dataset
ds = load_dataset("archivartaunik/01Matfieja-03", split="train")
sample = ds[0]
print(sample["speaker"], sample["text"]) # спікер і тэкст субцітра
arr = sample["audio"]["array"]
sr = sample["audio"]["sampling_rate"]
```
标签:
- 音频(audio)
- 自动语音识别(Automatic Speech Recognition,ASR)
- 字幕(subtitles)
语言:
- 白俄罗斯语(Belarusian,be)
许可协议:CC BY 4.0(cc-by-4.0)
任务类别:
- 自动语音识别(Automatic Speech Recognition)
展示名称:01.Matfieja-03
# 01.Matfieja-03
## 内容
本数据集通过单音频文件按字幕区间自动切片生成,支持的字幕格式包括:SRT、VTT、ASS/SSA、SBV、TTML、MicroDVD (.sub)、JSON。
## 内容结构
- `clips/`:存储音频片段
- `metadata.csv`:元数据表,包含字段:`id`、`audio`、`text`、`speaker`、`start`、`end`、`duration`
## 使用方法
python
from datasets import load_dataset
ds = load_dataset("archivartaunik/01Matfieja-03", split="train")
sample = ds[0]
print(sample["speaker"], sample["text"]) # 输出说话人及其字幕文本
arr = sample["audio"]["array"]
sr = sample["audio"]["sampling_rate"]
提供机构:
archivartaunik



