GeneralCognition/SEC_Tables_Lite
收藏Hugging Face2023-07-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GeneralCognition/SEC_Tables_Lite
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
dataset_info:
features:
- name: screenshot
dtype: image
- name: raw_html
dtype: string
- name: clean_html
dtype: string
- name: metadata
struct:
- name: url
dtype: string
- name: viewport_height
dtype: int64
- name: viewport_width
dtype: int64
splits:
- name: train
num_bytes: 157882062.6
num_examples: 3996
- name: test
num_bytes: 17542451.4
num_examples: 444
download_size: 146829857
dataset_size: 175424514.0
---
# Dataset Card for "SEC_Tables_Lite"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
GeneralCognition
原始信息汇总
数据集概述
配置信息
- 默认配置 (
config_name: default):- 训练数据 (
split: train):data/train-* - 测试数据 (
split: test):data/test-*
- 训练数据 (
数据集特征
- 截图 (
name: screenshot): 图像类型 (dtype: image) - 原始HTML (
name: raw_html): 字符串类型 (dtype: string) - 清理后的HTML (
name: clean_html): 字符串类型 (dtype: string) - 元数据 (
name: metadata): 结构化数据,包括:- URL (
name: url): 字符串类型 (dtype: string) - 视口高度 (
name: viewport_height): 整数类型 (dtype: int64) - 视口宽度 (
name: viewport_width): 整数类型 (dtype: int64)
- URL (
数据集分割
- 训练集 (
name: train):- 大小: 157882062.6 字节
- 示例数量: 3996
- 测试集 (
name: test):- 大小: 17542451.4 字节
- 示例数量: 444
数据集大小
- 下载大小: 146829857 字节
- 数据集总大小: 175424514.0 字节
搜集汇总
背景与挑战
背景概述
SEC_Tables_Lite是一个轻量级数据集,专注于SEC表格的视觉和HTML结构数据,包含4440个样本(训练集3996个,测试集444个),每个样本提供屏幕截图、原始和清理后的HTML以及元数据。该数据集适用于文档处理、表格识别或机器学习模型训练,旨在支持对SEC表格的结构化分析和理解。
以上内容由遇见数据集搜集并总结生成



