LongTableBench

github2025-11-04 更新2025-11-06 收录

下载链接：

https://github.com/liyaooi/LongTableBench

下载链接

链接失效反馈

官方服务：

资源简介：

LongTableBench是第一个多任务基准测试，旨在评估大型语言模型在长上下文半结构化表格上的推理能力。它包含5,950个问答实例，源自850个种子问题，涵盖7种表格格式（Markdown、HTML、JSON、LaTeX、SQL、XML、CSV）和18个领域（医疗、金融、教育、娱乐等），上下文长度可达128K令牌，支持单轮/多轮、单表/多表场景，并经过严格的符号验证、跨模型验证和人工审查。

LongTableBench is the first multi-task benchmark designed to evaluate the reasoning capabilities of large language models on long-context semi-structured tables. It contains 5,950 question-answering instances derived from 850 seed questions, covering 7 table formats (Markdown, HTML, JSON, LaTeX, SQL, XML, CSV) and 18 domains including healthcare, finance, education, entertainment and others. The context length can reach up to 128K tokens, and it supports single-round/multi-round, single-table/multi-table scenarios, with rigorous symbolic validation, cross-model validation and human review conducted.

创建时间：

2025-11-04

原始信息汇总

LongTableBench 数据集概述

数据集简介

LongTableBench 是一个综合性基准测试，用于评估大型语言模型在长上下文半结构化表格上的推理能力。该数据集覆盖多样化的格式、任务和领域，确保全面覆盖现实世界中的推理挑战。

核心特征

5,950个问答实例，源自850个种子问题
7种表格格式：Markdown、HTML、JSON、LaTeX、SQL、XML、CSV
18个领域：涵盖医疗、金融、教育、娱乐等
上下文长度达128K tokens
单轮与多轮、单表与多表场景
严格的符号验证、跨模型验证和人工审核

任务设计

包含六个精心设计的任务，评估三个基本维度：结构复杂性、长距离依赖和语义集成

任务名称	缩写	主要挑战
精确匹配	EM	结构
基本条件过滤	BCF	结构
模糊条件操作	FCM	长距离
事实检索	FR	长距离
外部知识融合	EKF	语义
不规则数值解释	INI	语义

数据统计

总实例数：5,950
长度分布：
- 40% 短（0–8K tokens）
- 35% 中（8K–32K）
- 25% 长（32K–128K）
任务比例：
- 35% 结构任务（EM、BCF）
- 35% 长距离任务（FCM、FR）
- 30% 语义任务（EKF、INI）

数据集格式

目录结构

datasets/ ├── tables/ # 表格文件（按来源和长度组织） └── questions/ # 问答文件（按长度和轮次类型组织）

单轮格式

json { "question_id": "唯一ID", "db_id": "数据库ID", "question": "问题文本（可能包含外部知识）", "answer": "真实答案（列表/字典格式）", "highlighted_table": ["相关表格ID"], "is_multi_table": true, "question_type": "任务类型", "db_path": "源表格路径" }

多轮格式

json { "question_id": "唯一ID", "db_id": "数据库ID", "evidence": "可选外部知识", "QA": [ {"round": 1, "question": "问题1", "answer": "答案1"}, {"round": 2, "question": "问题2", "answer": "答案2"} ], "highlighted_table": ["相关表格"], "is_multi_table": true, "question_type": "任务类型", "db_path": "表格路径" }

评估协议

指标：F1分数（对结构化答案进行宏平均）
设置：零样本，贪婪解码（temperature=0）
截断：对超过上下文窗口的输入进行中间截断
FR任务：必须包含证据（表格单元格或行引用）

许可证

代码：MIT许可证
数据集：CC BY 4.0许可证

搜集汇总

数据集介绍

构建方式

在长文本表格推理研究领域，LongTableBench通过系统化方法构建了包含5,950个问答实例的基准数据集。该数据集源自850个种子问题，采用符号验证、跨模型验证与人工审核三重机制确保数据质量。表格数据涵盖医疗、金融、教育等18个领域，通过七种半结构化格式呈现，并设计了单轮/多轮、单表/多表组合的多样化推理场景。

特点

该数据集以128K标记的上下文长度突破传统表格理解边界，其核心特征体现在多维度任务设计。六类任务分别针对结构复杂性、长距离依赖和语义融合三大挑战，其中35%任务聚焦精确匹配与条件过滤，35%侧重模糊条件操作与事实检索，30%涉及外部知识融合与非规范数值解析。数据分布呈现短中长文本的均衡配置，支持对模型长上下文能力的全面评估。

使用方法

研究者可通过标准化流程使用该数据集进行模型评估。部署阶段需配置vLLM推理框架并加载目标模型，执行阶段通过pred.py脚本指定数据路径、表格格式与任务类型。评估采用零样本设置下的宏F1分数，对结构化答案进行严格验证。数据集支持OpenAI兼容接口调用，用户可根据需要适配其他推理框架，其模块化设计便于扩展至不同实验环境。

背景与挑战

背景概述

随着大语言模型在结构化数据处理中的广泛应用，半结构化表格的长上下文推理成为自然语言处理领域的前沿课题。LongTableBench作为首个多任务基准数据集，由研究团队于2025年正式发布，旨在系统评估模型在多样化表格格式与复杂领域场景下的推理能力。该数据集涵盖医疗、金融、教育等18个垂直领域，通过5950个问答实例构建起覆盖128K令牌的上下文长度谱系，其严谨的符号验证与人工审核机制为表格推理研究提供了可靠的基础设施。

当前挑战

该数据集致力于解决半结构化表格长上下文推理的三重核心挑战：在结构维度需应对七种异构表格格式的解析与跨模态对齐，在依赖维度要求模型建立超长距离的语义关联与条件推理，在知识融合维度则需协调外部常识与表格数据的语义冲突。构建过程中面临标注一致性难题，包括多轮对话的逻辑连贯性维护、不规则数值的标准化映射，以及海量表格数据的质量过滤，这些挑战通过交叉模型验证与多层次人工评审得以系统性化解。

常用场景

经典使用场景

在结构化数据处理领域，LongTableBench作为首个多任务长上下文表格推理基准，其经典应用场景聚焦于评估大语言模型对半结构化表格的深度解析能力。该数据集通过涵盖医疗、金融、教育等18个领域的5950个问答实例，系统检验模型在128K令牌长度内对七种表格格式的跨模态理解，尤其擅长模拟真实业务场景中多轮对话与多表关联的复杂推理需求。

解决学术问题

该数据集有效解决了表格推理研究中三个核心学术难题：针对结构复杂性挑战，通过精确匹配与条件过滤任务验证模型对表格拓扑的感知能力；面对长距离依赖问题，借助模糊条件操作与事实检索任务评估模型跨行列的关联推理；在语义融合维度，通过外部知识整合与非规范数值解析任务推动符号计算与语义理解的交叉研究，为长上下文理解的理论突破提供量化支撑。

衍生相关工作

基于该数据集衍生的经典研究形成三个主要方向：在架构创新层面，催生了TableLLM等专用表格理解模型的迭代优化；评测方法论上推动了如符号验证与跨模型校验的标准化流程；技术应用范畴则延伸至TableGPT2等端到端表格生成系统。这些工作共同构建起从基准建设到产业落地的完整技术生态，持续推动文档智能领域的技术边界扩展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集