saarus72/ficbook_text_norm
收藏Hugging Face2024-03-09 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/saarus72/ficbook_text_norm
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从ficbook数据集中获取的文本,经过逆向归一化处理。归一化处理使用了特定的笔记本,并最终存储为一个jsonl文件。文件中每一行包含多个替换对,展示了从原始文本到归一化文本的转换。
该数据集包含从ficbook数据集中获取的文本,经过逆向归一化处理。归一化处理使用了特定的笔记本,并最终存储为一个jsonl文件。文件中每一行包含多个替换对,展示了从原始文本到归一化文本的转换。
提供机构:
saarus72
原始信息汇总
数据集概述
许可证
- Apache 2.0
任务类别
- 文本生成
语言
- 俄语
数据集大小
- 1M<n<10M
数据格式
- 数据集以
jsonl格式存储,每行包含一个JSON对象,该对象包含一系列替换对,每个替换对包含原始文本和替换后的文本。
示例数据
json { "replaces": [ { "text_from": "Боль во всем теле...Боже...я так и знала.... ", "text_to": "Боль во всем теле...Боже...я так и знала.... " }, { "text_from": "5", "text_to": "Пятая" }, { "text_from": " точка буквально ныла от боли, ушиб будет тот еще...садиться не смогу дня ", "text_to": " точка буквально ныла от боли, ушиб будет тот еще...садиться не смогу дня " }, { "text_from": "3", "text_to": "три" }, { "text_from": " так, точно.", "text_to": " так, точно." } ] }



