EdwardXJ/concat-debug-v1
收藏Hugging Face2024-06-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/EdwardXJ/concat-debug-v1
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: image
dtype: image
- name: sample_id
dtype: string
- name: ocr_bboxes
struct:
- name: paragraph
sequence: 'null'
- name: sentence
sequence: 'null'
- name: word
sequence:
sequence: int64
- name: ocr_predictions
struct:
- name: paragraph
sequence: 'null'
- name: sentence
sequence: 'null'
- name: word
sequence: string
- name: dataset_name
dtype: string
- name: bbox2text_queries
struct:
- name: paragraph
sequence: 'null'
- name: sentence
sequence: 'null'
- name: word
sequence: string
- name: bbox2text_annotations
struct:
- name: paragraph
sequence: 'null'
- name: sentence
sequence: 'null'
- name: word
sequence: string
- name: text2bbox_queries
struct:
- name: paragraph
sequence: 'null'
- name: sentence
sequence: 'null'
- name: word
sequence: string
- name: text2bbox_annotations
struct:
- name: paragraph
sequence: 'null'
- name: sentence
sequence: 'null'
- name: word
sequence: string
splits:
- name: train
num_bytes: 16502901412.8
num_examples: 76413
- name: val
num_bytes: 2753329486.0
num_examples: 13224
- name: test
num_bytes: 175369728.0
num_examples: 150
download_size: 19153645825
dataset_size: 19431600626.8
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: val
path: data/val-*
- split: test
path: data/test-*
---
提供机构:
EdwardXJ
原始信息汇总
数据集概述
数据集特征
- image: 图像数据类型。
- sample_id: 字符串数据类型。
- ocr_bboxes: 结构化数据,包含段落、句子和单词的边界框信息。
- paragraph: 无序列。
- sentence: 无序列。
- word: 序列类型为整数。
- ocr_predictions: 结构化数据,包含段落、句子和单词的OCR预测结果。
- paragraph: 无序列。
- sentence: 无序列。
- word: 序列类型为字符串。
- dataset_name: 字符串数据类型。
- bbox2text_queries: 结构化数据,包含段落、句子和单词的查询信息。
- paragraph: 无序列。
- sentence: 无序列。
- word: 序列类型为字符串。
- bbox2text_annotations: 结构化数据,包含段落、句子和单词的注释信息。
- paragraph: 无序列。
- sentence: 无序列。
- word: 序列类型为字符串。
- text2bbox_queries: 结构化数据,包含段落、句子和单词的查询信息。
- paragraph: 无序列。
- sentence: 无序列。
- word: 序列类型为字符串。
- text2bbox_annotations: 结构化数据,包含段落、句子和单词的注释信息。
- paragraph: 无序列。
- sentence: 无序列。
- word: 序列类型为字符串。
数据集分割
- train: 训练集,包含76413个样本,总大小为16502901412.8字节。
- val: 验证集,包含13224个样本,总大小为2753329486.0字节。
- test: 测试集,包含150个样本,总大小为175369728.0字节。
数据集大小
- download_size: 下载大小为19153645825字节。
- dataset_size: 数据集总大小为19431600626.8字节。
配置文件
- config_name: default
- data_files:
- split: train, path: data/train-*
- split: val, path: data/val-*
- split: test, path: data/test-*
- data_files:



