thewalnutaisg/Doclaynet-Full
收藏Hugging Face2024-08-26 更新2025-04-26 收录
下载链接:
https://hf-mirror.com/datasets/thewalnutaisg/Doclaynet-Full
下载链接
链接失效反馈官方服务:
资源简介:
# NOtice: The category Ids are not mapped btw 0-10 doclaynet classes, rather they are 2-12 Use the following Classes map.
```json
{'caption': 2,
'footnote': 3,
'formula': 4,
'list_item': 5,
'page_footer': 6,
'page_header': 7,
'picture': 8,
'section_header': 9,
'table': 10,
'text': 11,
'title': 12}
```
## dataset_info:
**config_name: all**
# features:
- name: image, dtype: image
- name: category_ids, sequence: int32
- name: image_id, dtype: int32
- name: boxes, sequence: sequence: float32
- name: width, dtype: int32
- name: height, dtype: int32
- name: file_name, dtype: string
- name: ocr_words, sequence: string
- name: ocr_boxes, sequence: sequence: float32
## splits:
- name: val, num_examples: 6480
- name: test, num_examples: 4992
- name: train, num_examples: 69096
注意:本数据集的类别ID并未映射至0-10的DocLayNet文档布局数据集类别,而是采用2至12的编号范围,请使用以下类别映射表。
json
{'图注(caption)': 2,
'脚注(footnote)': 3,
'公式(formula)': 4,
'列表项(list_item)': 5,
'页脚(page_footer)': 6,
'页眉(page_header)': 7,
'图片(picture)': 8,
'章节标题(section_header)': 9,
'表格(table)': 10,
'正文文本(text)': 11,
'文档标题(title)': 12}
## 数据集信息:
**配置名称:all**
# 特征字段:
- 字段名称:图像(image),数据类型:图像类型
- 字段名称:类别ID序列(category_ids),数据类型:int32序列
- 字段名称:图像ID(image_id),数据类型:int32
- 字段名称:边界框(boxes),数据类型:float32二维嵌套序列
- 字段名称:图像宽度(width),数据类型:int32
- 字段名称:图像高度(height),数据类型:int32
- 字段名称:文件名(file_name),数据类型:字符串
- 字段名称:OCR文本词序列(ocr_words),数据类型:字符串序列
- 字段名称:OCR边界框序列(ocr_boxes),数据类型:float32二维嵌套序列
## 数据集划分:
- 划分名称:验证集(val),样本数量:6480
- 划分名称:测试集(test),样本数量:4992
- 划分名称:训练集(train),样本数量:69096
提供机构:
thewalnutaisg



