RIPS-Goog-23/CORD
收藏Hugging Face2023-07-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RIPS-Goog-23/CORD
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: pixel_values
dtype:
array3_d:
shape:
- 3
- 224
- 224
dtype: float32
- name: input_ids
sequence: int64
- name: attention_mask
sequence: int64
- name: bbox
dtype:
array2_d:
shape:
- 512
- 4
dtype: int64
- name: labels
sequence: int64
- name: ner_tags
sequence:
class_label:
names:
'0': O
'1': B-MENU.NM
'2': B-MENU.NUM
'3': B-MENU.UNITPRICE
'4': B-MENU.CNT
'5': B-MENU.DISCOUNTPRICE
'6': B-MENU.PRICE
'7': B-MENU.ITEMSUBTOTAL
'8': B-MENU.VATYN
'9': B-MENU.ETC
'10': B-MENU.SUB_NM
'11': B-MENU.SUB_UNITPRICE
'12': B-MENU.SUB_CNT
'13': B-MENU.SUB_PRICE
'14': B-MENU.SUB_ETC
'15': B-VOID_MENU.NM
'16': B-VOID_MENU.PRICE
'17': B-SUB_TOTAL.SUBTOTAL_PRICE
'18': B-SUB_TOTAL.DISCOUNT_PRICE
'19': B-SUB_TOTAL.SERVICE_PRICE
'20': B-SUB_TOTAL.OTHERSVC_PRICE
'21': B-SUB_TOTAL.TAX_PRICE
'22': B-SUB_TOTAL.ETC
'23': B-TOTAL.TOTAL_PRICE
'24': B-TOTAL.TOTAL_ETC
'25': B-TOTAL.CASHPRICE
'26': B-TOTAL.CHANGEPRICE
'27': B-TOTAL.CREDITCARDPRICE
'28': B-TOTAL.EMONEYPRICE
'29': B-TOTAL.MENUTYPE_CNT
'30': B-TOTAL.MENUQTY_CNT
'31': I-MENU.NM
'32': I-MENU.NUM
'33': I-MENU.UNITPRICE
'34': I-MENU.CNT
'35': I-MENU.DISCOUNTPRICE
'36': I-MENU.PRICE
'37': I-MENU.ITEMSUBTOTAL
'38': I-MENU.VATYN
'39': I-MENU.ETC
'40': I-MENU.SUB_NM
'41': I-MENU.SUB_UNITPRICE
'42': I-MENU.SUB_CNT
'43': I-MENU.SUB_PRICE
'44': I-MENU.SUB_ETC
'45': I-VOID_MENU.NM
'46': I-VOID_MENU.PRICE
'47': I-SUB_TOTAL.SUBTOTAL_PRICE
'48': I-SUB_TOTAL.DISCOUNT_PRICE
'49': I-SUB_TOTAL.SERVICE_PRICE
'50': I-SUB_TOTAL.OTHERSVC_PRICE
'51': I-SUB_TOTAL.TAX_PRICE
'52': I-SUB_TOTAL.ETC
'53': I-TOTAL.TOTAL_PRICE
'54': I-TOTAL.TOTAL_ETC
'55': I-TOTAL.CASHPRICE
'56': I-TOTAL.CHANGEPRICE
'57': I-TOTAL.CREDITCARDPRICE
'58': I-TOTAL.EMONEYPRICE
'59': I-TOTAL.MENUTYPE_CNT
'60': I-TOTAL.MENUQTY_CNT
splits:
- name: validation
num_bytes: 63573088
num_examples: 100
- name: test
num_bytes: 63574448
num_examples: 100
- name: train
num_bytes: 508599760
num_examples: 800
download_size: 122423566
dataset_size: 635747296
---
# Dataset Card for "CORD"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征列表:
- 名称:像素值(pixel_values),数据类型为三维数组(array3_d),形状为(3, 224, 224),数据格式为32位浮点型(float32)
- 名称:输入标识符(input_ids),类型为64位整型序列
- 名称:注意力掩码(attention_mask),类型为64位整型序列
- 名称:边界框(bbox),数据类型为二维数组(array2_d),形状为(512, 4),数据格式为64位整型
- 名称:标签(labels),类型为64位整型序列
- 名称:命名实体识别标签(ner_tags),序列类型为类别标签(class_label),其类别名称如下:
'0': 普通实体(O)
'1': B-菜单名称(B-MENU.NM)
'2': B-菜单编号(B-MENU.NUM)
'3': B-菜单单价(B-MENU.UNITPRICE)
'4': B-菜单数量(B-MENU.CNT)
'5': B-菜单折扣价(B-MENU.DISCOUNTPRICE)
'6': B-菜单总价(B-MENU.PRICE)
'7': B-菜单分项小计(B-MENU.ITEMSUBTOTAL)
'8': B-菜单增值税标识(B-MENU.VATYN)
'9': B-菜单其他项(B-MENU.ETC)
'10': B-子菜单名称(B-MENU.SUB_NM)
'11': B-子菜单单价(B-MENU.SUB_UNITPRICE)
'12': B-子菜单数量(B-MENU.SUB_CNT)
'13': B-子菜单总价(B-MENU.SUB_PRICE)
'14': B-子菜单其他项(B-MENU.SUB_ETC)
'15': B-作废菜单名称(B-VOID_MENU.NM)
'16': B-作废菜单总价(B-VOID_MENU.PRICE)
'17': B-分项小计.分项小计总价(B-SUB_TOTAL.SUBTOTAL_PRICE)
'18': B-分项小计.折扣总价(B-SUB_TOTAL.DISCOUNT_PRICE)
'19': B-分项小计.服务费(B-SUB_TOTAL.SERVICE_PRICE)
'20': B-分项小计.其他服务费(B-SUB_TOTAL.OTHERSVC_PRICE)
'21': B-分项小计.税额(B-SUB_TOTAL.TAX_PRICE)
'22': B-分项小计.其他项(B-SUB_TOTAL.ETC)
'23': B-总计.总售价(B-TOTAL.TOTAL_PRICE)
'24': B-总计.其他项(B-TOTAL.TOTAL_ETC)
'25': B-总计.现金支付金额(B-TOTAL.CASHPRICE)
'26': B-总计.找零金额(B-TOTAL.CHANGEPRICE)
'27': B-总计.信用卡支付金额(B-TOTAL.CREDITCARDPRICE)
'28': B-总计.电子支付金额(B-TOTAL.EMONEYPRICE)
'29': B-总计.菜单类型数量(B-TOTAL.MENUTYPE_CNT)
'30': B-总计.菜单总数量(B-TOTAL.MENUQTY_CNT)
'31': I-菜单名称(I-MENU.NM)
'32': I-菜单编号(I-MENU.NUM)
'33': I-菜单单价(I-MENU.UNITPRICE)
'34': I-菜单数量(I-MENU.CNT)
'35': I-菜单折扣价(I-MENU.DISCOUNTPRICE)
'36': I-菜单总价(I-MENU.PRICE)
'37': I-菜单分项小计(I-MENU.ITEMSUBTOTAL)
'38': I-菜单增值税标识(I-MENU.VATYN)
'39': I-菜单其他项(I-MENU.ETC)
'40': I-子菜单名称(I-MENU.SUB_NM)
'41': I-子菜单单价(I-MENU.SUB_UNITPRICE)
'42': I-子菜单数量(I-MENU.SUB_CNT)
'43': I-子菜单总价(I-MENU.SUB_PRICE)
'44': I-子菜单其他项(I-MENU.SUB_ETC)
'45': I-作废菜单名称(I-VOID_MENU.NM)
'46': I-作废菜单总价(I-VOID_MENU.PRICE)
'47': I-分项小计.分项小计总价(I-SUB_TOTAL.SUBTOTAL_PRICE)
'48': I-分项小计.折扣总价(I-SUB_TOTAL.DISCOUNT_PRICE)
'49': I-分项小计.服务费(I-SUB_TOTAL.SERVICE_PRICE)
'50': I-分项小计.其他服务费(I-SUB_TOTAL.OTHERSVC_PRICE)
'51': I-分项小计.税额(I-SUB_TOTAL.TAX_PRICE)
'52': I-分项小计.其他项(I-SUB_TOTAL.ETC)
'53': I-总计.总售价(I-TOTAL.TOTAL_PRICE)
'54': I-总计.其他项(I-TOTAL.TOTAL_ETC)
'55': I-总计.现金支付金额(I-TOTAL.CASHPRICE)
'56': I-总计.找零金额(I-TOTAL.CHANGEPRICE)
'57': I-总计.信用卡支付金额(I-TOTAL.CREDITCARDPRICE)
'58': I-总计.电子支付金额(I-TOTAL.EMONEYPRICE)
'59': I-总计.菜单类型数量(I-TOTAL.MENUTYPE_CNT)
'60': I-总计.菜单总数量(I-TOTAL.MENUQTY_CNT)
数据集划分:
- 验证集(validation):字节大小为63573088,样本数量为100
- 测试集(test):字节大小为63574448,样本数量为100
- 训练集(train):字节大小为508599760,样本数量为800
下载大小为122423566字节,数据集总大小为635747296字节
# 数据集卡片:CORD
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
RIPS-Goog-23
原始信息汇总
数据集概述
数据集特征
- pixel_values: 3D数组,形状为(3, 224, 224),数据类型为float32。
- input_ids: 序列数据,数据类型为int64。
- attention_mask: 序列数据,数据类型为int64。
- bbox: 2D数组,形状为(512, 4),数据类型为int64。
- labels: 序列数据,数据类型为int64。
- ner_tags: 序列数据,包含类别标签,具体类别包括:
- O
- B-MENU.NM 至 B-TOTAL.MENUQTY_CNT
- I-MENU.NM 至 I-TOTAL.MENUQTY_CNT
数据集分割
- validation: 包含100个样本,占用63573088字节。
- test: 包含100个样本,占用63574448字节。
- train: 包含800个样本,占用508599760字节。
数据集大小
- 下载大小: 122423566字节
- 数据集总大小: 635747296字节
搜集汇总
数据集介绍

背景与挑战
背景概述
RIPS-Goog-23/CORD是一个总大小为122 MB的数据集,最近一个月下载量为40次。由于技术限制,无法加载数据集的具体内容,提示存在PyExtensionType列的安全问题。
以上内容由遇见数据集搜集并总结生成



