razhan/kteb
收藏Hugging Face2024-06-28 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/razhan/kteb
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含1000本经过OCR处理的书籍,总字数为12484235,唯一字数为1565055。数据集的特征包括文本和书籍标题,数据类型均为字符串。数据集包含一个训练分割,有1033个示例,总字节数为157012990。
该数据集包含1000本经过OCR处理的书籍,总字数为12484235,唯一字数为1565055。数据集的特征包括文本和书籍标题,数据类型均为字符串。数据集包含一个训练分割,有1033个示例,总字节数为157012990。
提供机构:
razhan



