AigizK/notebooklm_rus

Name: AigizK/notebooklm_rus
Creator: AigizK
Published: 2026-03-26 07:53:03
License: 暂无描述

Hugging Face2026-03-26 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/AigizK/notebooklm_rus

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - ru license: cc-by-nc-4.0 task_categories: - text-to-speech - automatic-speech-recognition tags: - podcast - russian - notebooklm - tts - emotional-speech size_categories: - n<1K --- # NotebookLM Russian Podcast Dataset Датасет содержит записи подкастов, сгенерированных с помощью Google NotebookLM на русском языке. ## Описание - **Голоса:** 2 диктора — мужской и женский - **Общая длительность:** 77 ч 23 мин 22 сек - **Количество эпизодов:** 417 - **Формат аудио:** WAV, 24 kHz, моно - **Язык:** русский ## Структура датасета | Поле | Тип | Описание | |------|-----|----------| | `audio` | Audio | Аудиозапись эпизода (24 kHz, моно) | | `transcription` | string | Полная текстовая расшифровка эпизода | | `segments` | string (JSON) | Посегментная разметка с таймкодами и идентификаторами спикеров | | `episode` | string | Название эпизода | ### Формат поля `segments` ```json [ { "Start": 0.0, "End": 5.64, "Speaker": 0, "Content": "Текст сегмента..." } ] ``` - `Speaker: 0` — первый диктор - `Speaker: 1` — второй диктор ## Цель создания Датасет создан в исследовательских целях для изучения возможности создания качественного и приятного Text-to-Speech на русском языке. Записи NotebookLM отличаются выразительной, эмоциональной и естественной речью, что делает их потенциально ценным материалом для обучения TTS-моделей с передачей эмоций и интонаций. ## Использование ```python from datasets import load_dataset ds = load_dataset("AigizK/notebooklm_rus", split="train") print(ds[0]) ```

提供机构：

AigizK

5,000+

优质数据集

54 个

任务类型

进入经典数据集