T2RBench
收藏github2025-08-31 更新2025-09-05 收录
下载链接:
https://github.com/Tele-AI/TeleTableBench
下载链接
链接失效反馈官方服务:
资源简介:
T2RBench是业内首个面向真实工业场景的表格生成报告基准。该数据集包含中英双语场景,共覆盖6个一级大类和19个二级业务小类,包括汽车、能源、金融、政务、财务、科技、教育、银行等垂直领域。相比于各类开源表格数据集,T2R-bench是业内目前覆盖工业级表格类别最全的数据集,包括多种工业领域特有的复杂表格场景,如单表多sheet、多表多sheet、复杂结构表、超大宽表等。
T2RBench is the industry's first tabular-to-report generation benchmark targeting real industrial scenarios. This dataset supports both Chinese and English scenarios, covering 6 first-level categories and 19 second-level business subcategories, spanning vertical fields including automotive, energy, finance, government affairs, accounting, technology, education, banking and others. Compared with various open-source tabular datasets, T2RBench is currently the most comprehensive industrial-grade tabular dataset in the industry in terms of covered categories, including multiple complex tabular scenarios unique to industrial fields, such as single-table multi-sheet, multi-table multi-sheet, complex structured tables and ultra-wide tables.
创建时间:
2025-08-29
原始信息汇总
T2RBench 数据集概述
数据集简介
T2RBench是业内首个面向真实工业场景的“表格生成报告”基准数据集。该数据集包含中英双语场景,覆盖多个垂直领域,并针对工业级复杂表格场景设计。
覆盖领域
- 一级大类:6个
- 二级业务小类:19个
- 具体领域:汽车、能源、金融、政务、财务、科技、教育、银行等
表格特征
- 包含工业领域特有的复杂表格场景
- 支持单表多sheet、多表多sheet结构
- 包含复杂结构表和超大宽表
任务目标
面向“表格生成报告”任务,适用于商业智能(BI)、表格分析工具及企业级报告生成等工业应用场景。
数据内容
- 来源于真实工业场景的表格数据
- 经人工校对的高质量问题
- 高质量标注的报告关键点(金标准)
基准特点
- 包含最复杂场景的表格数据
- 提供最长的答案标准
- 目前只开源部分高价值数据,全量数据将尽快公开
相关论文
Zhang, J., Pan, C., Wei, K., et al. (2025). T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables. arXiv:2508.19813.
搜集汇总
数据集介绍

构建方式
在真实工业场景的数据构建过程中,T2RBench采用了多阶段人工核验机制,确保数据的高质量与可靠性。数据来源于多个垂直领域的实际业务表格,涵盖单表多sheet、多表多sheet、复杂结构表及超大宽表等多种工业特有场景。构建流程包括表格筛选、问题设计、报告关键点标注及人工校对,最终形成经严格质量控制的双语数据集。
特点
作为业内首个面向工业级表格生成报告任务的基准,T2RBench突出表现为覆盖领域广、结构复杂多样、标注质量高三大特点。其包含中英双语数据,涵盖汽车、能源、金融、政务等6个一级类别和19个二级业务类别,囊括了众多真实场景中的复杂表格类型。该数据集还提供目前最长的答案标准和高质量人工校对报告,极大提升了评估的全面性和可靠性。
使用方法
该数据集主要用于评估和推进表格到报告生成任务的研究与应用,适用于商业智能、表格分析工具及企业级报告自动生成等场景。使用者可依据提供的表格数据、对应问题及金标准报告,训练或测试自然语言生成模型。通过加载预定义的数据划分,研究人员能够进行端到端实验,并利用标准指标综合评价生成报告的信息完整性、准确性和流畅度。
背景与挑战
背景概述
表格数据到文本生成作为自然语言处理与数据分析交叉领域的重要研究方向,近年来受到学术界与工业界的广泛关注。T2RBench数据集由研究团队于2025年创建,是业内首个面向真实工业场景的表格生成报告基准。该数据集涵盖汽车、能源、金融等六大领域十九个细分行业,包含中英双语场景,其创新性在于突破了传统表格数据集的局限,首次系统性地整合了工业环境中特有的复杂表格形态,包括多表多sheet结构和超大宽表等,为表格理解与生成任务提供了前所未有的研究基础。
当前挑战
该数据集致力于解决工业场景下表格生成报告的核心挑战,包括如何从结构复杂的表格中提取关键信息并生成连贯、准确的篇章级报告。构建过程中面临多重困难:一是工业表格具有高度异构性,如合并单元格、多级表头和跨表格引用等结构复杂性;二是需要保证生成报告的事实准确性与领域专业性,这要求标注团队具备深厚的行业知识;三是数据来源于真实业务环境,涉及隐私与合规问题,需经过严格脱敏处理才能开放使用。
常用场景
经典使用场景
在自然语言生成与表格理解交叉领域,T2RBench作为工业级多领域表格数据集的典型应用场景,聚焦于从复杂结构表格自动生成综合性报告的任务。该数据集广泛应用于评估模型对多sheet表格、超大宽表及跨域业务数据的深层语义解析能力,为研究者提供了验证表格到文本生成系统在真实工业环境中泛化性能的标准平台。
解决学术问题
该数据集有效解决了工业场景下表格语义解析粒度不足、长文本生成连贯性差以及跨领域适应性弱等核心学术问题。通过提供经人工校验的金标准关键点,它推动了表格理解与生成模型在结构复杂性、内容准确性和逻辑一致性方面的量化评估,填补了表格生成报告任务在系统性研究领域的空白。
衍生相关工作
基于T2RBench衍生的经典研究包括端到端的表格语义编码架构、多粒度注意力生成模型,以及结合领域知识的可控报告生成技术。这些工作显著提升了工业表格的结构化信息抽取能力,并催生了诸如基于表格的多模态问答系统、自动化业务分析管道等创新方向的发展。
以上内容由遇见数据集搜集并总结生成



