five

AyoubChLin/CompanyDocuments

收藏
Hugging Face2024-07-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AyoubChLin/CompanyDocuments
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含超过2,000个公司文档,分为四种主要类型:发票、库存报告、采购订单和发货订单。每个文档以PDF格式提供,并附带一个CSV文件,包含从这些文档中提取的文本、标签以及每个文档的字数。数据集适用于多种自然语言处理任务,如文本分类、信息提取和文档聚类。最新更新包括将所有文件映射到PHI3 mini以提取JSON格式的信息。
提供机构:
AyoubChLin
原始信息汇总

数据集概述

数据集名称

  • 名称: Company Documents Dataset

数据集内容

  • 文档类型: 包含四种主要类型的公司文档:
    • 发票
    • 库存报告
    • 采购订单
    • 发货订单
  • 文件格式:
    • PDF文档: 2,677个PDF文件
    • CSV文件: company-document-text.csv,包含文本内容、标签和字数

数据集详情

  • 总文档数: 2,677
  • 字数范围:
    • 最小字数: 23
    • 最大字数: 472

应用领域

  • 文本分类: 训练模型以分类文档
  • 信息提取: 从文档中提取特定字段和细节
  • 文档聚类: 根据内容将相似文档分组
  • OCR和文本挖掘: 使用真实数据改进OCR模型和文本挖掘技术

引用格式

  • 引用此数据集时,请使用以下格式: Ayoub Cherguelain, 2024, "Company Documents Dataset", Kaggle
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作