AyoubChLin/CompanyDocuments
收藏Hugging Face2024-07-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AyoubChLin/CompanyDocuments
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含超过2,000个公司文档,分为四种主要类型:发票、库存报告、采购订单和发货订单。每个文档以PDF格式提供,并附带一个CSV文件,包含从这些文档中提取的文本、标签以及每个文档的字数。数据集适用于多种自然语言处理任务,如文本分类、信息提取和文档聚类。最新更新包括将所有文件映射到PHI3 mini以提取JSON格式的信息。
提供机构:
AyoubChLin
原始信息汇总
数据集概述
数据集名称
- 名称: Company Documents Dataset
数据集内容
- 文档类型: 包含四种主要类型的公司文档:
- 发票
- 库存报告
- 采购订单
- 发货订单
- 文件格式:
- PDF文档: 2,677个PDF文件
- CSV文件:
company-document-text.csv,包含文本内容、标签和字数
数据集详情
- 总文档数: 2,677
- 字数范围:
- 最小字数: 23
- 最大字数: 472
应用领域
- 文本分类: 训练模型以分类文档
- 信息提取: 从文档中提取特定字段和细节
- 文档聚类: 根据内容将相似文档分组
- OCR和文本挖掘: 使用真实数据改进OCR模型和文本挖掘技术
引用格式
- 引用此数据集时,请使用以下格式: Ayoub Cherguelain, 2024, "Company Documents Dataset", Kaggle



