BEE-spoke-data/napierone-pdf-raw
收藏Hugging Face2024-06-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/BEE-spoke-data/napierone-pdf-raw
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过将NapierOne的PDF文件转换为文本生成的,使用了marker工具进行转换。数据集包含多个配置,每个配置都有不同的特征和分割信息。数据集的主要语言是英语(en)和威尔士语(cy),并且包含了其他多种语言的少量样本。
该数据集是通过将NapierOne的PDF文件转换为文本生成的,使用了marker工具进行转换。数据集包含多个配置,每个配置都有不同的特征和分割信息。数据集的主要语言是英语(en)和威尔士语(cy),并且包含了其他多种语言的少量样本。
提供机构:
BEE-spoke-data
原始信息汇总
数据集概述
语言
- 英语 (en)
- 威尔士语 (cy)
许可
- Open Data Commons Attribution License (odc-by)
大小分类
- 1K<n<10K
任务分类
- 文本生成
- 特征提取
数据集信息
配置名称:default
- 特征
- filename: string
- text: string
- lang: string
- 分割
- train
- 字节数: 304469627
- 样本数: 4754
- train
- 下载大小: 110151114
- 数据集大小: 304469627
配置名称:en-clean
- 特征
- filename: string
- text: string
- lang: string
- score: float64
- 分割
- train
- 字节数: 295427931.3234727
- 样本数: 4564
- train
- 下载大小: 98536065
- 数据集大小: 295427931.3234727
配置名称:english
- 特征
- filename: string
- text: string
- lang: string
- 分割
- train
- 字节数: 298769627.6724863
- 样本数: 4665
- train
- 下载大小: 109084507
- 数据集大小: 298769627.6724863
配置
配置名称:default
- 数据文件
- 分割: train
- 路径: data/train-*
配置名称:en-clean
- 数据文件
- 分割: train
- 路径: en-clean/train-*
配置名称:english
- 数据文件
- 分割: train
- 路径: english/train-*
检测到的语言
- 英语 (en): 4665
- 威尔士语 (cy): 54
- 荷兰语 (nl): 2
- 芬兰语 (fi): 7
- 法语 (fr): 8
- 阿尔巴尼亚语 (sq): 1
- 意大利语 (it): 1
- 斯洛伐克语 (sk): 1
- 西班牙语 (es): 2
- 德语 (de): 3
- 罗马尼亚语 (ro): 1
- 波兰语 (pl): 1
- 中文 (zh): 1
- 索马里语 (so): 1
- 马拉雅拉姆语 (ml): 1
- 未知错误 (unknown-error): 5



