five

BEE-spoke-data/napierone-epub-raw

收藏
Hugging Face2024-05-11 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/BEE-spoke-data/napierone-epub-raw
下载链接
链接失效反馈
官方服务:
资源简介:
NapierOne EPUB原始数据集,包含通过marker工具转换的Project Gutenberg书籍。数据集支持多种语言,包括英语、西班牙语、芬兰语、法语、葡萄牙语、荷兰语、德语、瑞典语和意大利语等。数据集分为三个配置:default、en-clean和english,每个配置包含文件名、文本内容和语言特征。数据集主要用于文本生成和特征提取任务。

NapierOne EPUB原始数据集,包含通过marker工具转换的Project Gutenberg书籍。数据集支持多种语言,包括英语、西班牙语、芬兰语、法语、葡萄牙语、荷兰语、德语、瑞典语和意大利语等。数据集分为三个配置:default、en-clean和english,每个配置包含文件名、文本内容和语言特征。数据集主要用于文本生成和特征提取任务。
提供机构:
BEE-spoke-data
原始信息汇总

数据集概述

基本信息

  • 名称: BEE-spoke-data/napierone-epub-raw
  • 语言支持: 英语 (en), 西班牙语 (es), 芬兰语 (fi), 法语 (fr), 葡萄牙语 (pt), 荷兰语 (nl), 德语 (de), 瑞典语 (sv), 意大利语 (it)
  • 许可证: odc-by
  • 大小分类: 1K<n<10K
  • 任务分类: 文本生成, 特征提取

数据集结构

  • 配置名称: default, en-clean, english
  • 特征:
    • filename: 字符串类型
    • text: 字符串类型
    • lang: 字符串类型
    • score (仅在en-clean配置中): 浮点数类型

数据集拆分

  • 训练集:
    • default: 4999个样本, 2190406903字节
    • en-clean: 4371个样本, 1948279468.5718827字节
    • english: 4403个样本, 1929258170.415883字节

下载与数据集大小

  • default: 下载大小1310735987字节, 数据集大小2190406903字节
  • en-clean: 下载大小1167660575字节, 数据集大小1948279468.5718827字节
  • english: 下载大小1172514726字节, 数据集大小1929258170.415883字节

数据文件路径

  • default: data/train-*
  • en-clean: en-clean/train-*
  • english: english/train-*

标签

  • gutenberg, epub, marker
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作