saarus72/pikabu_text_norm
收藏数据集概述
许可证
- Apache 2.0
任务类别
- 文本生成
语言
- 俄语
数据集大小
- 1M<n<10M
数据格式
- 数据以单个
jsonl文件形式提供,每行包含以下字段:tn: 标准化文本itn: 逆标准化文本orig_index: 原始文本索引text_index: 文本索引replaces: 替换信息列表,每个替换包含text_from和text_to字段
示例数据
json { "tn": "- Ну как так то? У нас в Норильске при минус сорока градусах в буран люди не замерзают, а у вас при минус десяти без ветра человек насмерть замёрз?", "itn": "- Ну как так то? У нас в Норильске при минус 40 градусах в буран люди не замерзают, а у вас при минус 10 без ветра человек насмерть замёрз?", "orig_index": 7178627, "text_index": 1, "replaces": [ { "text_from": "- Ну как так то? У нас в Норильске при минус ", "text_to": "- Ну как так то? У нас в Норильске при минус " }, { "text_from": "40", "text_to": "сорока" }, { "text_from": " градусах в буран люди не замерзают, а у вас при минус ", "text_to": " градусах в буран люди не замерзают, а у вас при минус " }, { "text_from": "10", "text_to": "десяти" }, { "text_from": " без ветра человек насмерть замёрз?", "text_to": " без ветра человек насмерть замёрз?" } ] }



