denis-berezutskiy-lad/ru_transcription_punctuation

Name: denis-berezutskiy-lad/ru_transcription_punctuation
Creator: denis-berezutskiy-lad
Published: 2023-11-12 17:17:01
License: 暂无描述

Hugging Face2023-11-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/denis-berezutskiy-lad/ru_transcription_punctuation

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于通过NeMo脚本训练俄语标点符号和大写转换模型。它主要包含来自俄罗斯立法机构（Gosduma和Mosgorduma）的转录文本以及部分电影字幕。数据集大小约为1.2GB，格式为.csv，支持的标签包括标点符号和大写标记。数据集旨在提供高质量的训练样本，以改进俄语文本处理模型的性能。

提供机构：

denis-berezutskiy-lad

原始信息汇总

数据集概述

该数据集用于通过NeMo脚本训练俄语标点符号和大小写转换器。

数据集主要包含以下来源的转录文本：

数据集采用.csv格式，但可以轻松转换为NeMo格式（text.txt和labels.txt）。

数据行按源文档（"source_entity"列）随机排序，但文档内的顺序与原始文本保持一致。

O,.?!:;…⁈-—

OUT

（T表示缩写，即全大写）

5,000+

优质数据集

54 个

任务类型

进入经典数据集