five

TableBank

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/TableBank
下载链接
链接失效反馈
官方服务:
资源简介:
为了解决对标准开放域表基准数据集的需求,作者提出了一种新颖的弱监督方法来自动创建 TableBank,该方法比现有的用于表分析的人工标记数据集大几个数量级。与传统的弱监督训练集不同,我们的方法不仅可以获得大规模的训练数据,而且可以获得高质量的训练数据。如今,网络上有大量的电子文档,例如 Microsoft Word (.docx) 和 Latex (.tex) 文件。这些在线文档本质上在其源代码中包含表格的标记标签。直观地说,可以通过在每个文档中使用标记语言添加边界框来操作这些源代码。对于 Word 文档,可以在标识每个表格的边界的地方修改内部 Office XML 代码。对于 Latex 文档,也可以在识别表格边界框的地方修改 tex 代码。通过这种方式,可以为商业文档、官方填写、研究论文等各种领域创建高质量的标记数据,这对于大规模的表格分析任务非常有利。 TableBank 数据集总共包含 417,234 个高质量标记表及其在各个领域的原始文档。
提供机构:
OpenDataLab
创建时间:
2022-05-23
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作