five

ToneRuLS

收藏
魔搭社区2025-11-27 更新2025-11-22 收录
下载链接:
https://modelscope.cn/datasets/Vikhrmodels/ToneRuLS
下载链接
链接失效反馈
官方服务:
资源简介:
# ToneRuLS **ToneRuLS** — обработанная версия [Russian LibriSpeech (RuLS)](https://openslr.org/96/). В датасете 91.36 часа аудио для `train` сплита и 6.87 часа для `validation`. --- ## Описание Для каждого аудиофрагмента представлены: 1. **Ссылка на Wav-файл** (`audio`) 2. **Текстовая расшифровка** (`text`) 3. **Обработанный текст** (`text_with_preprocessing`) - текст с убранной пунктуацией и приведённый к нижнему регистру ## Формат записи (JSON) ```json { "audio": "https://.../train/00001.wav", "text": "Карл Иваныч сначала понюхал, утер нос, щелкнул пальцами и тогда только принялся за меня.", "text_with_preprocessing": "карл иваныч сначала понюхал утер нос щелкнул пальцами и тогда только принялся за меня" } ``` --- ## Пример использования ```python from datasets import load_dataset ds = load_dataset("Vikhrmodels/ToneRuLS") ```

# ToneRuLS **ToneRuLS** — 经预处理的俄语LibriSpeech(Russian LibriSpeech,RuLS)数据集,其源自[俄语LibriSpeech(RuLS)](https://openslr.org/96/)。该数据集的训练(train)子集包含91.36小时音频数据,验证(validation)子集则包含6.87小时音频数据。 --- ## 数据集说明 针对每个音频片段,均提供以下三类信息: 1. **WAV音频文件链接**(对应`audio`字段) 2. **原始文本转录内容**(对应`text`字段) 3. **预处理后文本**(对应`text_with_preprocessing`字段):即移除所有标点符号并统一转为小写的文本内容 --- ## JSON存储格式 json { "audio": "https://.../train/00001.wav", "text": "卡尔·伊万内奇先是嗅了嗅,擦了擦鼻子,弹了弹手指,这才开始对我下手。", "text_with_preprocessing": "卡尔伊万内奇先是嗅了嗅擦了擦鼻子弹了弹手指这才开始对我下手" } --- ## 使用示例 python from datasets import load_dataset ds = load_dataset("Vikhrmodels/ToneRuLS")
提供机构:
maas
创建时间:
2025-09-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作