five

BEE-spoke-data/napierone-pdf-raw

收藏
Hugging Face2024-06-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/BEE-spoke-data/napierone-pdf-raw
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过将NapierOne的PDF文件转换为文本生成的,使用了marker工具进行转换。数据集包含多个配置,每个配置都有不同的特征和分割信息。数据集的主要语言是英语(en)和威尔士语(cy),并且包含了其他多种语言的少量样本。

该数据集是通过将NapierOne的PDF文件转换为文本生成的,使用了marker工具进行转换。数据集包含多个配置,每个配置都有不同的特征和分割信息。数据集的主要语言是英语(en)和威尔士语(cy),并且包含了其他多种语言的少量样本。
提供机构:
BEE-spoke-data
原始信息汇总

数据集概述

语言

  • 英语 (en)
  • 威尔士语 (cy)

许可

  • Open Data Commons Attribution License (odc-by)

大小分类

  • 1K<n<10K

任务分类

  • 文本生成
  • 特征提取

数据集信息

配置名称:default

  • 特征
    • filename: string
    • text: string
    • lang: string
  • 分割
    • train
      • 字节数: 304469627
      • 样本数: 4754
  • 下载大小: 110151114
  • 数据集大小: 304469627

配置名称:en-clean

  • 特征
    • filename: string
    • text: string
    • lang: string
    • score: float64
  • 分割
    • train
      • 字节数: 295427931.3234727
      • 样本数: 4564
  • 下载大小: 98536065
  • 数据集大小: 295427931.3234727

配置名称:english

  • 特征
    • filename: string
    • text: string
    • lang: string
  • 分割
    • train
      • 字节数: 298769627.6724863
      • 样本数: 4665
  • 下载大小: 109084507
  • 数据集大小: 298769627.6724863

配置

配置名称:default

  • 数据文件
    • 分割: train
    • 路径: data/train-*

配置名称:en-clean

  • 数据文件
    • 分割: train
    • 路径: en-clean/train-*

配置名称:english

  • 数据文件
    • 分割: train
    • 路径: english/train-*

检测到的语言

  • 英语 (en): 4665
  • 威尔士语 (cy): 54
  • 荷兰语 (nl): 2
  • 芬兰语 (fi): 7
  • 法语 (fr): 8
  • 阿尔巴尼亚语 (sq): 1
  • 意大利语 (it): 1
  • 斯洛伐克语 (sk): 1
  • 西班牙语 (es): 2
  • 德语 (de): 3
  • 罗马尼亚语 (ro): 1
  • 波兰语 (pl): 1
  • 中文 (zh): 1
  • 索马里语 (so): 1
  • 马拉雅拉姆语 (ml): 1
  • 未知错误 (unknown-error): 5
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作