five

SSTQA

收藏
arXiv2025-08-26 更新2025-11-25 收录
下载链接:
https://github.com/weAIDB/ST-Raptor
下载链接
链接失效反馈
官方服务:
资源简介:
SSTQA数据集由上海交通大学的研究团队创建,包含102张真实世界的半结构化表格和764个代表性的查询问题。这些表格广泛应用于各种应用场景,如财务报告、医疗记录和电子商务交易订单。SSTQA数据集旨在帮助研究人员评估半结构化表格问答系统的性能和可靠性。

The SSTQA dataset was created by a research team from Shanghai Jiao Tong University, which includes 102 real-world semi-structured tables and 764 representative query questions. These tables are widely applied in various scenarios such as financial reports, medical records and e-commerce transaction orders. The SSTQA dataset is designed to help researchers evaluate the performance and reliability of semi-structured table question answering systems.
提供机构:
上海交通大学
创建时间:
2025-08-26
搜集汇总
数据集介绍
main_image_url
构建方式
在金融报告和医疗记录等现实应用中,半结构化表格因其灵活布局而广泛存在。SSTQA数据集的构建过程融合了多阶段策略:首先从2031个真实场景表格中筛选出102个具有嵌套表头和合并单元格等复杂结构的代表性样本;随后采用两阶段问答对生成机制,先通过表格内容逆向生成问题,再基于模板引导大语言模型创建开放式问答对;最终通过人工与模型双重验证确保764个问答对的质量与对齐精度。
特点
该数据集显著区别于传统表格问答基准,其核心特征体现在三维度量体系:结构层面以2.52的平均嵌套深度和5.44%的合并单元格比例构建复杂布局;内容层面通过147个平均单元格数与2.73的文本长度实现信息密度平衡;任务维度则按表结构复杂度与问题推理难度划分三级挑战,其中178个困难案例需结合语义推理与多步操作方能求解。
使用方法
研究者可依托该数据集开展半结构化表格理解的前沿探索。典型应用路径包含三层架构:基础层面通过解析表格的层次正交树表示学习布局建模;进阶层面利用问题分解机制将复杂查询转换为原子操作流水线;验证层面则结合前向约束检查与后向答案重构的双重校验框架。实验表明该方法在数值计算、信息抽取和摘要生成三类任务中可实现20%的性能提升。
背景与挑战
背景概述
SSTQA数据集由上海交通大学与西蒙弗雷泽大学、清华大学、中国人民大学等机构的研究团队于2025年共同创建,旨在推动半结构化表格问答领域的研究。该数据集聚焦于解决现实应用中广泛存在的半结构化表格(如财务报表、医疗记录和交易订单)的自动问答问题,其核心研究在于如何准确理解复杂表格布局(如分层标题和合并单元格)并生成可靠答案。SSTQA包含102个真实场景表格和764个代表性查询,通过提供高质量标注数据,显著提升了模型在金融管理、人力资源等领域的应用潜力,对促进自动化数据分析具有重要影响力。
当前挑战
SSTQA数据集面临的挑战主要体现在领域问题和构建过程两方面。在领域问题层面,半结构化表格问答需克服布局复杂性带来的语义理解困难,例如模型需区分不同层级的标题关联性、处理合并单元格的语义歧义,以及执行多步骤数值计算与汇总任务。构建过程中,挑战包括从多样化的真实表格中精确提取元信息(如标题与内容单元格的识别),设计有效的树形结构(HO-Tree)以保留布局关系,以及通过人工与自动化结合确保问答对的质量与对齐,避免信息损失和标注不一致。
常用场景
经典使用场景
在金融报表分析和医疗记录查询等现实应用中,SSTQA数据集被广泛用于评估模型对半结构化表格的复杂布局理解能力。该数据集包含具有层次化表头和合并单元格的表格,支持数值计算、信息提取和内容摘要等典型任务,为自动化问答系统提供了关键的测试基准。
解决学术问题
SSTQA数据集有效解决了半结构化表格自动问答中的三大核心学术问题:复杂布局的精确建模、多跳推理的分解执行以及答案可靠性的验证机制。通过引入层次正交树表示和操作管道生成,该数据集显著提升了模型在语义对齐和结构感知方面的性能,推动了表格理解领域的方法创新。
衍生相关工作
基于SSTQA数据集衍生的经典研究包括ST-Raptor框架的树形操作管道设计、多模态大模型在表格布局识别中的优化应用,以及双向验证机制的可靠性增强方法。这些工作进一步推动了NL2Code适配、视觉语言模型微调等技术在半结构化数据理解中的融合发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作