five

saarus72/ficbook_text_norm

收藏
Hugging Face2024-03-09 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/saarus72/ficbook_text_norm
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从ficbook数据集中获取的文本,经过逆向归一化处理。归一化处理使用了特定的笔记本,并最终存储为一个jsonl文件。文件中每一行包含多个替换对,展示了从原始文本到归一化文本的转换。

该数据集包含从ficbook数据集中获取的文本,经过逆向归一化处理。归一化处理使用了特定的笔记本,并最终存储为一个jsonl文件。文件中每一行包含多个替换对,展示了从原始文本到归一化文本的转换。
提供机构:
saarus72
原始信息汇总

数据集概述

许可证

  • Apache 2.0

任务类别

  • 文本生成

语言

  • 俄语

数据集大小

  • 1M<n<10M

数据格式

  • 数据集以jsonl格式存储,每行包含一个JSON对象,该对象包含一系列替换对,每个替换对包含原始文本和替换后的文本。

示例数据

json { "replaces": [ { "text_from": "Боль во всем теле...Боже...я так и знала.... ", "text_to": "Боль во всем теле...Боже...я так и знала.... " }, { "text_from": "5", "text_to": "Пятая" }, { "text_from": " точка буквально ныла от боли, ушиб будет тот еще...садиться не смогу дня ", "text_to": " точка буквально ныла от боли, ушиб будет тот еще...садиться не смогу дня " }, { "text_from": "3", "text_to": "три" }, { "text_from": " так, точно.", "text_to": " так, точно." } ] }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作