kl3269/tablesense
收藏Hugging Face2024-11-23 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/kl3269/tablesense
下载链接
链接失效反馈官方服务:
资源简介:
TableSense数据集源自Tablesense论文和GitHub仓库,专注于电子表格中的表格检测任务。该任务旨在检测给定电子表格中的所有表格并定位其范围。数据集基于三个公开数据集(VEnron2, VEUSUS, 和 VFUSE)进行标注,这些数据集在电子表格领域广泛使用。为了减少重复标注,使用了SpreadCluster聚类相似表格的方法。数据集的处理包括从.xls转换为.xlsx格式,以及使用ClosedXML提取特征。最终数据集包含2,615个表格,来自1,645个电子表格。数据集结构包括文件路径、工作表名称、数据集划分(训练集或测试集)以及表格区域列表。
The TableSense Dataset is a dataset for table detection in spreadsheets, developed based on the TableSense paper and GitHub repository. This dataset annotates table regions in three public datasets (VEnron2, VEUSUS, and VFUSE) to provide detailed table location information. The dataset structure includes file path, sheet name, dataset split (training set or testing set), and table region information (start column, start row, end column, end row). The annotation process involves converting original Excel files to .xlsx format and using ClosedXML to read and extract features, resulting in 2,615 tables.
提供机构:
kl3269



