five

denis-berezutskiy-lad/ru_transcription_punctuation

收藏
Hugging Face2023-11-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/denis-berezutskiy-lad/ru_transcription_punctuation
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于通过NeMo脚本训练俄语标点符号和大写转换模型。它主要包含来自俄罗斯立法机构(Gosduma和Mosgorduma)的转录文本以及部分电影字幕。数据集大小约为1.2GB,格式为.csv,支持的标签包括标点符号和大写标记。数据集旨在提供高质量的训练样本,以改进俄语文本处理模型的性能。

该数据集用于通过NeMo脚本训练俄语标点符号和大写转换模型。它主要包含来自俄罗斯立法机构(Gosduma和Mosgorduma)的转录文本以及部分电影字幕。数据集大小约为1.2GB,格式为.csv,支持的标签包括标点符号和大写标记。数据集旨在提供高质量的训练样本,以改进俄语文本处理模型的性能。
提供机构:
denis-berezutskiy-lad
原始信息汇总

数据集概述

数据集用途

该数据集用于通过NeMo脚本训练俄语标点符号和大小写转换器。

数据来源

数据集主要包含以下来源的转录文本:

  • 俄罗斯议会(Gosduma):约1.2 GB
  • 莫斯科议会(Mosgorduma):约300 MB
  • 俄罗斯OpenSubtitles项目快照:约300 MB

数据格式

数据集采用.csv格式,但可以轻松转换为NeMo格式(text.txt和labels.txt)。

数据组织

数据行按源文档("source_entity"列)随机排序,但文档内的顺序与原始文本保持一致。

支持的标签

标点符号

O,.?!:;…⁈-—

大小写

OUT

(T表示缩写,即全大写)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作