archivartaunik/01Matfieja-03

Name: archivartaunik/01Matfieja-03
Creator: archivartaunik
Published: 2026-04-07 14:03:53
License: 暂无描述

Hugging Face2026-04-07 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/archivartaunik/01Matfieja-03

下载链接

链接失效反馈

官方服务：

资源简介：

--- tags: - audio - asr - subtitles language: - be license: cc-by-4.0 task_categories: - automatic-speech-recognition pretty_name: 01.Matfieja-03 --- # 01.Matfieja-03 Датасэт, атрыманы аўтаматычнай нарэзкай аднаго аўдыяфайла па межах субцітраў. Падтрымліваюцца фарматы: SRT, VTT, ASS/SSA, SBV, TTML, MicroDVD (.sub), JSON. ## Змест - `clips/` — аўдыякліпы - `metadata.csv` — табліца з палямі: `id, audio, text, speaker, start, end, duration` ## Выкарыстанне ```python from datasets import load_dataset ds = load_dataset("archivartaunik/01Matfieja-03", split="train") sample = ds[0] print(sample["speaker"], sample["text"]) # спікер і тэкст субцітра arr = sample["audio"]["array"] sr = sample["audio"]["sampling_rate"] ```

标签： - 音频（audio） - 自动语音识别（Automatic Speech Recognition，ASR） - 字幕（subtitles）语言： - 白俄罗斯语（Belarusian，be）许可协议：CC BY 4.0（cc-by-4.0）任务类别： - 自动语音识别（Automatic Speech Recognition）展示名称：01.Matfieja-03 # 01.Matfieja-03 ## 内容本数据集通过单音频文件按字幕区间自动切片生成，支持的字幕格式包括：SRT、VTT、ASS/SSA、SBV、TTML、MicroDVD (.sub)、JSON。 ## 内容结构 - `clips/`：存储音频片段 - `metadata.csv`：元数据表，包含字段：`id`、`audio`、`text`、`speaker`、`start`、`end`、`duration` ## 使用方法 python from datasets import load_dataset ds = load_dataset("archivartaunik/01Matfieja-03", split="train") sample = ds[0] print(sample["speaker"], sample["text"]) # 输出说话人及其字幕文本 arr = sample["audio"]["array"] sr = sample["audio"]["sampling_rate"]

提供机构：

archivartaunik

5,000+

优质数据集

54 个

任务类型

进入经典数据集