ineoApp/data-2024-05-07
收藏Hugging Face2024-05-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ineoApp/data-2024-05-07
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含图像和文本数据,图像数据用于目标检测(bboxes),文本数据用于命名实体识别(ner_tags)。ner_tags字段包含了多个类别的标签,如发票号、日期、金额等,涵盖了发票相关的各种信息。数据集分为训练集和测试集,训练集包含221个样本,测试集包含56个样本。
This dataset comprises image and text data. The image data is intended for object detection tasks using bounding boxes (bboxes), while the text data is designed for named entity recognition tasks with the ner_tags field. The ner_tags field includes labels across multiple categories, including invoice number, date, amount, and other invoice-related information. The dataset is divided into a training set and a test set, with 221 samples in the training set and 56 samples in the test set.
提供机构:
ineoApp
原始信息汇总
数据集概述
数据集特征
- id: 字符串类型
- image: 图像类型
- bboxes: 序列类型,内部序列为整数类型
- ner_tags: 序列类型,包含多个命名实体标签,如numero facture, date facture等
- tokens: 序列类型,字符串类型
数据集划分
- train: 包含221个样本,数据量约为271093035.2093863字节
- test: 包含56个样本,数据量约为68693257.79061373字节
数据集大小
- 下载大小: 317477705字节
- 数据集总大小: 339786293.0字节
配置信息
- 默认配置下,训练数据位于
data/train-*,测试数据位于data/test-*
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含用于目标检测的图像数据和用于命名实体识别的文本数据,主要涉及发票相关信息,已划分为训练集(221样本)和测试集(56样本)。
以上内容由遇见数据集搜集并总结生成



