five

AigizK/notebooklm_rus

收藏
Hugging Face2026-03-26 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/AigizK/notebooklm_rus
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ru license: cc-by-nc-4.0 task_categories: - text-to-speech - automatic-speech-recognition tags: - podcast - russian - notebooklm - tts - emotional-speech size_categories: - n<1K --- # NotebookLM Russian Podcast Dataset Датасет содержит записи подкастов, сгенерированных с помощью Google NotebookLM на русском языке. ## Описание - **Голоса:** 2 диктора — мужской и женский - **Общая длительность:** 77 ч 23 мин 22 сек - **Количество эпизодов:** 417 - **Формат аудио:** WAV, 24 kHz, моно - **Язык:** русский ## Структура датасета | Поле | Тип | Описание | |------|-----|----------| | `audio` | Audio | Аудиозапись эпизода (24 kHz, моно) | | `transcription` | string | Полная текстовая расшифровка эпизода | | `segments` | string (JSON) | Посегментная разметка с таймкодами и идентификаторами спикеров | | `episode` | string | Название эпизода | ### Формат поля `segments` ```json [ { "Start": 0.0, "End": 5.64, "Speaker": 0, "Content": "Текст сегмента..." } ] ``` - `Speaker: 0` — первый диктор - `Speaker: 1` — второй диктор ## Цель создания Датасет создан в исследовательских целях для изучения возможности создания качественного и приятного Text-to-Speech на русском языке. Записи NotebookLM отличаются выразительной, эмоциональной и естественной речью, что делает их потенциально ценным материалом для обучения TTS-моделей с передачей эмоций и интонаций. ## Использование ```python from datasets import load_dataset ds = load_dataset("AigizK/notebooklm_rus", split="train") print(ds[0]) ```
提供机构:
AigizK
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作