denis-berezutskiy-lad/ru_transcription_punctuation
收藏Hugging Face2023-11-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/denis-berezutskiy-lad/ru_transcription_punctuation
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于通过NeMo脚本训练俄语标点符号和大写转换模型。它主要包含来自俄罗斯立法机构(Gosduma和Mosgorduma)的转录文本以及部分电影字幕。数据集大小约为1.2GB,格式为.csv,支持的标签包括标点符号和大写标记。数据集旨在提供高质量的训练样本,以改进俄语文本处理模型的性能。
该数据集用于通过NeMo脚本训练俄语标点符号和大写转换模型。它主要包含来自俄罗斯立法机构(Gosduma和Mosgorduma)的转录文本以及部分电影字幕。数据集大小约为1.2GB,格式为.csv,支持的标签包括标点符号和大写标记。数据集旨在提供高质量的训练样本,以改进俄语文本处理模型的性能。
提供机构:
denis-berezutskiy-lad
原始信息汇总
数据集概述
数据集用途
该数据集用于通过NeMo脚本训练俄语标点符号和大小写转换器。
数据来源
数据集主要包含以下来源的转录文本:
- 俄罗斯议会(Gosduma):约1.2 GB
- 莫斯科议会(Mosgorduma):约300 MB
- 俄罗斯OpenSubtitles项目快照:约300 MB
数据格式
数据集采用.csv格式,但可以轻松转换为NeMo格式(text.txt和labels.txt)。
数据组织
数据行按源文档("source_entity"列)随机排序,但文档内的顺序与原始文本保持一致。
支持的标签
标点符号
O,.?!:;…⁈-—
大小写
OUT
(T表示缩写,即全大写)



