Benedict-L/funsd-layoutlmv3-aug
收藏Hugging Face2024-06-26 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/Benedict-L/funsd-layoutlmv3-aug
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含用于文档理解任务的结构化数据,主要包括文本标记、边界框、命名实体识别标签和图像。命名实体识别标签包括HEADER、QUESTION和ANSWER等类别。数据集分为训练集和测试集,分别包含149和50个样本。
This dataset contains structured data for document understanding tasks, including text tokens, bounding boxes, named entity recognition tags, and images. The named entity recognition tags include categories such as HEADER, QUESTION, and ANSWER. The dataset is divided into training and test sets, containing 149 and 50 samples respectively.
提供机构:
Benedict-L
原始信息汇总
数据集概述
数据集信息
特征
- id: 字符串类型
- tokens: 字符串序列
- bboxes: 整数序列的序列
- ner_tags: 命名实体标签序列
- 标签名称:
- 0: O
- 1: B-HEADER
- 2: I-HEADER
- 3: B-QUESTION
- 4: I-QUESTION
- 5: B-ANSWER
- 6: I-ANSWER
- 标签名称:
- image: 图像类型
数据分割
- train:
- 样本数量: 149
- 数据大小: 27288633.0 字节
- test:
- 样本数量: 50
- 数据大小: 9931720.0 字节
数据集大小
- 下载大小: 35839116 字节
- 数据集总大小: 37220353.0 字节
配置
- config_name: default
- 数据文件路径:
- train: data/train-*
- test: data/test-*
- 数据文件路径:



