five

pszemraj/bookcorpus_deduplicated-formatted

收藏
Hugging Face2023-09-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pszemraj/bookcorpus_deduplicated-formatted
下载链接
链接失效反馈
官方服务:
资源简介:
`bookcorpus_deduplicated-formatted`数据集是基于`saibo/bookcorpus_deduplicated`的,尝试修复了可能存在的空格问题。空格在可读内容中扮演着重要角色,它们维持了秩序、平衡和节奏。
提供机构:
pszemraj
原始信息汇总

bookcorpus_deduplicated-formatted

数据集概述

  • 许可证:apache-2.0
  • 任务类别:text-generation
  • 语言:en
  • 来源数据集
    • saibo/bookcorpus_deduplicated
    • bookcorpus

数据集描述

该数据集基于 saibo/bookcorpus_deduplicated,旨在修复可能存在的空白问题,以提高内容的可读性。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作