five

thewalnutaisg/Doclaynet-Full

收藏
Hugging Face2024-08-26 更新2025-04-26 收录
下载链接:
https://hf-mirror.com/datasets/thewalnutaisg/Doclaynet-Full
下载链接
链接失效反馈
官方服务:
资源简介:
# NOtice: The category Ids are not mapped btw 0-10 doclaynet classes, rather they are 2-12 Use the following Classes map. ```json {'caption': 2, 'footnote': 3, 'formula': 4, 'list_item': 5, 'page_footer': 6, 'page_header': 7, 'picture': 8, 'section_header': 9, 'table': 10, 'text': 11, 'title': 12} ``` ## dataset_info: **config_name: all** # features: - name: image, dtype: image - name: category_ids, sequence: int32 - name: image_id, dtype: int32 - name: boxes, sequence: sequence: float32 - name: width, dtype: int32 - name: height, dtype: int32 - name: file_name, dtype: string - name: ocr_words, sequence: string - name: ocr_boxes, sequence: sequence: float32 ## splits: - name: val, num_examples: 6480 - name: test, num_examples: 4992 - name: train, num_examples: 69096

注意:本数据集的类别ID并未映射至0-10的DocLayNet文档布局数据集类别,而是采用2至12的编号范围,请使用以下类别映射表。 json {'图注(caption)': 2, '脚注(footnote)': 3, '公式(formula)': 4, '列表项(list_item)': 5, '页脚(page_footer)': 6, '页眉(page_header)': 7, '图片(picture)': 8, '章节标题(section_header)': 9, '表格(table)': 10, '正文文本(text)': 11, '文档标题(title)': 12} ## 数据集信息: **配置名称:all** # 特征字段: - 字段名称:图像(image),数据类型:图像类型 - 字段名称:类别ID序列(category_ids),数据类型:int32序列 - 字段名称:图像ID(image_id),数据类型:int32 - 字段名称:边界框(boxes),数据类型:float32二维嵌套序列 - 字段名称:图像宽度(width),数据类型:int32 - 字段名称:图像高度(height),数据类型:int32 - 字段名称:文件名(file_name),数据类型:字符串 - 字段名称:OCR文本词序列(ocr_words),数据类型:字符串序列 - 字段名称:OCR边界框序列(ocr_boxes),数据类型:float32二维嵌套序列 ## 数据集划分: - 划分名称:验证集(val),样本数量:6480 - 划分名称:测试集(test),样本数量:4992 - 划分名称:训练集(train),样本数量:69096
提供机构:
thewalnutaisg
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作