ToneRuLS
收藏魔搭社区2025-11-27 更新2025-11-22 收录
下载链接:
https://modelscope.cn/datasets/Vikhrmodels/ToneRuLS
下载链接
链接失效反馈官方服务:
资源简介:
# ToneRuLS
**ToneRuLS** — обработанная версия [Russian LibriSpeech (RuLS)](https://openslr.org/96/). В датасете 91.36 часа аудио для `train` сплита и 6.87 часа для `validation`.
---
## Описание
Для каждого аудиофрагмента представлены:
1. **Ссылка на Wav-файл** (`audio`)
2. **Текстовая расшифровка** (`text`)
3. **Обработанный текст** (`text_with_preprocessing`) - текст с убранной пунктуацией и приведённый к нижнему регистру
## Формат записи (JSON)
```json
{
"audio": "https://.../train/00001.wav",
"text": "Карл Иваныч сначала понюхал, утер нос, щелкнул пальцами и тогда только принялся за меня.",
"text_with_preprocessing": "карл иваныч сначала понюхал утер нос щелкнул пальцами и тогда только принялся за меня"
}
```
---
## Пример использования
```python
from datasets import load_dataset
ds = load_dataset("Vikhrmodels/ToneRuLS")
```
# ToneRuLS
**ToneRuLS** — 经预处理的俄语LibriSpeech(Russian LibriSpeech,RuLS)数据集,其源自[俄语LibriSpeech(RuLS)](https://openslr.org/96/)。该数据集的训练(train)子集包含91.36小时音频数据,验证(validation)子集则包含6.87小时音频数据。
---
## 数据集说明
针对每个音频片段,均提供以下三类信息:
1. **WAV音频文件链接**(对应`audio`字段)
2. **原始文本转录内容**(对应`text`字段)
3. **预处理后文本**(对应`text_with_preprocessing`字段):即移除所有标点符号并统一转为小写的文本内容
---
## JSON存储格式
json
{
"audio": "https://.../train/00001.wav",
"text": "卡尔·伊万内奇先是嗅了嗅,擦了擦鼻子,弹了弹手指,这才开始对我下手。",
"text_with_preprocessing": "卡尔伊万内奇先是嗅了嗅擦了擦鼻子弹了弹手指这才开始对我下手"
}
---
## 使用示例
python
from datasets import load_dataset
ds = load_dataset("Vikhrmodels/ToneRuLS")
提供机构:
maas
创建时间:
2025-09-19



