BEE-spoke-data/napierone-epub-raw
收藏Hugging Face2024-05-11 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/BEE-spoke-data/napierone-epub-raw
下载链接
链接失效反馈官方服务:
资源简介:
NapierOne EPUB原始数据集,包含通过marker工具转换的Project Gutenberg书籍。数据集支持多种语言,包括英语、西班牙语、芬兰语、法语、葡萄牙语、荷兰语、德语、瑞典语和意大利语等。数据集分为三个配置:default、en-clean和english,每个配置包含文件名、文本内容和语言特征。数据集主要用于文本生成和特征提取任务。
NapierOne EPUB原始数据集,包含通过marker工具转换的Project Gutenberg书籍。数据集支持多种语言,包括英语、西班牙语、芬兰语、法语、葡萄牙语、荷兰语、德语、瑞典语和意大利语等。数据集分为三个配置:default、en-clean和english,每个配置包含文件名、文本内容和语言特征。数据集主要用于文本生成和特征提取任务。
提供机构:
BEE-spoke-data
原始信息汇总
数据集概述
基本信息
- 名称: BEE-spoke-data/napierone-epub-raw
- 语言支持: 英语 (en), 西班牙语 (es), 芬兰语 (fi), 法语 (fr), 葡萄牙语 (pt), 荷兰语 (nl), 德语 (de), 瑞典语 (sv), 意大利语 (it)
- 许可证: odc-by
- 大小分类: 1K<n<10K
- 任务分类: 文本生成, 特征提取
数据集结构
- 配置名称: default, en-clean, english
- 特征:
- filename: 字符串类型
- text: 字符串类型
- lang: 字符串类型
- score (仅在en-clean配置中): 浮点数类型
数据集拆分
- 训练集:
- default: 4999个样本, 2190406903字节
- en-clean: 4371个样本, 1948279468.5718827字节
- english: 4403个样本, 1929258170.415883字节
下载与数据集大小
- default: 下载大小1310735987字节, 数据集大小2190406903字节
- en-clean: 下载大小1167660575字节, 数据集大小1948279468.5718827字节
- english: 下载大小1172514726字节, 数据集大小1929258170.415883字节
数据文件路径
- default: data/train-*
- en-clean: en-clean/train-*
- english: english/train-*
标签
- gutenberg, epub, marker



