arvindrajan92/sroie_document_understanding
收藏Hugging Face2022-10-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/arvindrajan92/sroie_document_understanding
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是SROIE 2019数据集的增强版本,增加了用于OCR和布局理解的行描述和行总计的标签。
---
license: MIT许可证
dataset_info:
features:
- name: image
dtype: 图像
- name: ocr
list:
- name: box
sequence:
sequence: float64
- name: label
dtype: 字符串
- name: text
dtype: 字符串
splits:
- name: train
num_bytes: 267317016.0
num_examples: 652
download_size: 217146103
dataset_size: 267317016.0
---
# "sroie_document_understanding"数据集卡片
## 目录
- [目录](#table-of-contents)
- [数据集描述](#dataset-description)
- [数据集结构](#dataset-structure)
- [数据字段](#data-fields)
- [数据集构建](#dataset-creation)
- [源数据](#source-data)
- [标注信息](#annotations)
- [附加信息](#additional-information)
- [许可证信息](#licensing-information)
- [贡献致谢](#contributions)
## 数据集描述
本数据集是SROIE 2019数据集的增强版本,新增了适用于光学字符识别(Optical Character Recognition,简称OCR)与版面理解任务的文本行描述及文本行总计标注。
## 数据集结构
python
DatasetDict({
train: Dataset({
features: ['image', 'ocr'],
num_rows: 652
})
})
### 数据字段
python
{
'image': PIL图像对象,
'ocr': [
# 文本框1
{
'box': [[float, float], [float, float], [float, float], [float, float]],
'label': str, # 可选值:"other"(其他)、"company"(公司)、"address"(地址)、"date"(日期)、"line_description"(文本行描述)、"line_total"(文本行总计)、"total"(总计)
'text': str
},
...
# 文本框N
{
'box': [[float, float], [float, float], [float, float], [float, float]],
'label': str,
'text': str,
}
]
}
## 数据集构建
### 源数据
本数据集源自[ICDAR2019扫描收据光学字符识别与信息抽取竞赛](https://rrc.cvc.uab.es/?ch=13)
### 标注信息
#### 标注流程
研究人员通过开源标注工具[labelme](https://github.com/wkentaro/labelme)为收据文本行项新增了专属标注。
#### 标注人员
Arvind Rajan(为源数据中的原始文本框添加标注信息)
## 附加信息
### 许可证信息
MIT许可证
### 贡献致谢
感谢[@arvindrajan92](https://github.com/arvindrajan92)贡献本数据集。
提供机构:
arvindrajan92
原始信息汇总
数据集概述
数据集名称
"sroie_document_understanding"
数据集描述
这是一个SROIE 2019数据集的增强版本,增加了用于OCR和布局理解的行描述和行总计的额外标签。
数据集结构
- 数据集类型:
DatasetDict - 训练集:
- 特征:
[image, ocr] - 行数: 652
- 特征:
数据字段
- image: PIL Image对象
- ocr: 列表,包含多个文本框,每个文本框包含:
- box: 四组浮点数,表示文本框的坐标
- label: 字符串,可能的值包括 "other", "company", "address", "date", "line_description", "line_total", "total"
- text: 字符串
数据集大小
- 下载大小: 217146103字节
- 数据集大小: 267317016.0字节
许可证
MIT License



