five

archivartaunik/01Matfieja-03

收藏
Hugging Face2026-04-07 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/archivartaunik/01Matfieja-03
下载链接
链接失效反馈
官方服务:
资源简介:
--- tags: - audio - asr - subtitles language: - be license: cc-by-4.0 task_categories: - automatic-speech-recognition pretty_name: 01.Matfieja-03 --- # 01.Matfieja-03 Датасэт, атрыманы аўтаматычнай нарэзкай аднаго аўдыяфайла па межах субцітраў. Падтрымліваюцца фарматы: SRT, VTT, ASS/SSA, SBV, TTML, MicroDVD (.sub), JSON. ## Змест - `clips/` — аўдыякліпы - `metadata.csv` — табліца з палямі: `id, audio, text, speaker, start, end, duration` ## Выкарыстанне ```python from datasets import load_dataset ds = load_dataset("archivartaunik/01Matfieja-03", split="train") sample = ds[0] print(sample["speaker"], sample["text"]) # спікер і тэкст субцітра arr = sample["audio"]["array"] sr = sample["audio"]["sampling_rate"] ```

标签: - 音频(audio) - 自动语音识别(Automatic Speech Recognition,ASR) - 字幕(subtitles) 语言: - 白俄罗斯语(Belarusian,be) 许可协议:CC BY 4.0(cc-by-4.0) 任务类别: - 自动语音识别(Automatic Speech Recognition) 展示名称:01.Matfieja-03 # 01.Matfieja-03 ## 内容 本数据集通过单音频文件按字幕区间自动切片生成,支持的字幕格式包括:SRT、VTT、ASS/SSA、SBV、TTML、MicroDVD (.sub)、JSON。 ## 内容结构 - `clips/`:存储音频片段 - `metadata.csv`:元数据表,包含字段:`id`、`audio`、`text`、`speaker`、`start`、`end`、`duration` ## 使用方法 python from datasets import load_dataset ds = load_dataset("archivartaunik/01Matfieja-03", split="train") sample = ds[0] print(sample["speaker"], sample["text"]) # 输出说话人及其字幕文本 arr = sample["audio"]["array"] sr = sample["audio"]["sampling_rate"]
提供机构:
archivartaunik
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作