ToneRuLS

Name: ToneRuLS
Creator: maas
Published: 2025-11-27 16:49:24
License: 暂无描述

魔搭社区2025-11-27 更新2025-11-22 收录

下载链接：

https://modelscope.cn/datasets/Vikhrmodels/ToneRuLS

下载链接

链接失效反馈

官方服务：

资源简介：

# ToneRuLS **ToneRuLS** — обработанная версия [Russian LibriSpeech (RuLS)](https://openslr.org/96/). В датасете 91.36 часа аудио для `train` сплита и 6.87 часа для `validation`. --- ## Описание Для каждого аудиофрагмента представлены: 1. **Ссылка на Wav-файл** (`audio`) 2. **Текстовая расшифровка** (`text`) 3. **Обработанный текст** (`text_with_preprocessing`) - текст с убранной пунктуацией и приведённый к нижнему регистру ## Формат записи (JSON) ```json { "audio": "https://.../train/00001.wav", "text": "Карл Иваныч сначала понюхал, утер нос, щелкнул пальцами и тогда только принялся за меня.", "text_with_preprocessing": "карл иваныч сначала понюхал утер нос щелкнул пальцами и тогда только принялся за меня" } ``` --- ## Пример использования ```python from datasets import load_dataset ds = load_dataset("Vikhrmodels/ToneRuLS") ```

# ToneRuLS **ToneRuLS** — 经预处理的俄语LibriSpeech（Russian LibriSpeech，RuLS）数据集，其源自[俄语LibriSpeech（RuLS）](https://openslr.org/96/)。该数据集的训练（train）子集包含91.36小时音频数据，验证（validation）子集则包含6.87小时音频数据。 --- ## 数据集说明针对每个音频片段，均提供以下三类信息： 1. **WAV音频文件链接**（对应`audio`字段） 2. **原始文本转录内容**（对应`text`字段） 3. **预处理后文本**（对应`text_with_preprocessing`字段）：即移除所有标点符号并统一转为小写的文本内容 --- ## JSON存储格式 json { "audio": "https://.../train/00001.wav", "text": "卡尔·伊万内奇先是嗅了嗅，擦了擦鼻子，弹了弹手指，这才开始对我下手。", "text_with_preprocessing": "卡尔伊万内奇先是嗅了嗅擦了擦鼻子弹了弹手指这才开始对我下手" } --- ## 使用示例 python from datasets import load_dataset ds = load_dataset("Vikhrmodels/ToneRuLS")

提供机构：

maas

创建时间：

2025-09-19

5,000+

优质数据集

54 个

任务类型

进入经典数据集