five

arvindrajan92/sroie_document_understanding

收藏
Hugging Face2022-10-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/arvindrajan92/sroie_document_understanding
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是SROIE 2019数据集的增强版本,增加了用于OCR和布局理解的行描述和行总计的标签。

--- license: MIT许可证 dataset_info: features: - name: image dtype: 图像 - name: ocr list: - name: box sequence: sequence: float64 - name: label dtype: 字符串 - name: text dtype: 字符串 splits: - name: train num_bytes: 267317016.0 num_examples: 652 download_size: 217146103 dataset_size: 267317016.0 --- # "sroie_document_understanding"数据集卡片 ## 目录 - [目录](#table-of-contents) - [数据集描述](#dataset-description) - [数据集结构](#dataset-structure) - [数据字段](#data-fields) - [数据集构建](#dataset-creation) - [源数据](#source-data) - [标注信息](#annotations) - [附加信息](#additional-information) - [许可证信息](#licensing-information) - [贡献致谢](#contributions) ## 数据集描述 本数据集是SROIE 2019数据集的增强版本,新增了适用于光学字符识别(Optical Character Recognition,简称OCR)与版面理解任务的文本行描述及文本行总计标注。 ## 数据集结构 python DatasetDict({ train: Dataset({ features: ['image', 'ocr'], num_rows: 652 }) }) ### 数据字段 python { 'image': PIL图像对象, 'ocr': [ # 文本框1 { 'box': [[float, float], [float, float], [float, float], [float, float]], 'label': str, # 可选值:"other"(其他)、"company"(公司)、"address"(地址)、"date"(日期)、"line_description"(文本行描述)、"line_total"(文本行总计)、"total"(总计) 'text': str }, ... # 文本框N { 'box': [[float, float], [float, float], [float, float], [float, float]], 'label': str, 'text': str, } ] } ## 数据集构建 ### 源数据 本数据集源自[ICDAR2019扫描收据光学字符识别与信息抽取竞赛](https://rrc.cvc.uab.es/?ch=13) ### 标注信息 #### 标注流程 研究人员通过开源标注工具[labelme](https://github.com/wkentaro/labelme)为收据文本行项新增了专属标注。 #### 标注人员 Arvind Rajan(为源数据中的原始文本框添加标注信息) ## 附加信息 ### 许可证信息 MIT许可证 ### 贡献致谢 感谢[@arvindrajan92](https://github.com/arvindrajan92)贡献本数据集。
提供机构:
arvindrajan92
原始信息汇总

数据集概述

数据集名称

"sroie_document_understanding"

数据集描述

这是一个SROIE 2019数据集的增强版本,增加了用于OCR和布局理解的行描述和行总计的额外标签。

数据集结构

  • 数据集类型: DatasetDict
  • 训练集:
    • 特征: [image, ocr]
    • 行数: 652

数据字段

  • image: PIL Image对象
  • ocr: 列表,包含多个文本框,每个文本框包含:
    • box: 四组浮点数,表示文本框的坐标
    • label: 字符串,可能的值包括 "other", "company", "address", "date", "line_description", "line_total", "total"
    • text: 字符串

数据集大小

  • 下载大小: 217146103字节
  • 数据集大小: 267317016.0字节

许可证

MIT License

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作