AigizK/notebooklm_rus
收藏Hugging Face2026-03-26 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/AigizK/notebooklm_rus
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- ru
license: cc-by-nc-4.0
task_categories:
- text-to-speech
- automatic-speech-recognition
tags:
- podcast
- russian
- notebooklm
- tts
- emotional-speech
size_categories:
- n<1K
---
# NotebookLM Russian Podcast Dataset
Датасет содержит записи подкастов, сгенерированных с помощью Google NotebookLM на русском языке.
## Описание
- **Голоса:** 2 диктора — мужской и женский
- **Общая длительность:** 77 ч 23 мин 22 сек
- **Количество эпизодов:** 417
- **Формат аудио:** WAV, 24 kHz, моно
- **Язык:** русский
## Структура датасета
| Поле | Тип | Описание |
|------|-----|----------|
| `audio` | Audio | Аудиозапись эпизода (24 kHz, моно) |
| `transcription` | string | Полная текстовая расшифровка эпизода |
| `segments` | string (JSON) | Посегментная разметка с таймкодами и идентификаторами спикеров |
| `episode` | string | Название эпизода |
### Формат поля `segments`
```json
[
{
"Start": 0.0,
"End": 5.64,
"Speaker": 0,
"Content": "Текст сегмента..."
}
]
```
- `Speaker: 0` — первый диктор
- `Speaker: 1` — второй диктор
## Цель создания
Датасет создан в исследовательских целях для изучения возможности создания качественного и приятного Text-to-Speech на русском языке. Записи NotebookLM отличаются выразительной, эмоциональной и естественной речью, что делает их потенциально ценным материалом для обучения TTS-моделей с передачей эмоций и интонаций.
## Использование
```python
from datasets import load_dataset
ds = load_dataset("AigizK/notebooklm_rus", split="train")
print(ds[0])
```
提供机构:
AigizK



