StructText

github2025-07-29 更新2025-07-30 收录

下载链接：

https://github.com/IBM/struct-text

下载链接

链接失效反馈

官方服务：

资源简介：

StructText是一个综合性的结构化到文本生成的基准数据集，用于多维评估。它通过从可信表格开始，对生成的每个段落进行四个维度的评分：事实性、幻觉、连贯性以及数字和时间准确性。数据集采用两阶段计划-执行流程，首先生成语义连贯的报告类型，然后为每个行与报告类型对编写简短段落。此外，还提供了一个轻量级基线，用于逆向过程，即从文本提取表格。

StructText is a comprehensive structured-to-text generation benchmark dataset designed for multi-dimensional evaluation. It rates each generated paragraph across four dimensions: factual accuracy,幻觉 (hallucination), coherence, and numerical and temporal accuracy, starting from credible tables. The dataset follows a two-phase plan-execution workflow, first generating semantically coherent report types, and then writing brief paragraphs for each row and report type pair. Additionally, a lightweight baseline is provided for the reverse process, i.e., extracting tables from text.

创建时间：

2025-07-07

原始信息汇总

StructText 数据集概述

数据集基本信息

名称: StructText
类型: 表格到文本的合成数据集构建工具
许可证: MIT
托管平台: Hugging Face (https://huggingface.co/datasets/ibm-research/struct-text)
相关论文: StructText: A Synthetic Table-to-Text Approach for Benchmark Generation with Multi-Dimensional Evaluation (TaDA @ VLDB 2025)

核心功能

数据集构建器: 从可信表格生成文本报告
基线生成器: 提供文本到表格的提取基线
评估工具包: 四维评估体系

四维评估指标

事实性(Factuality): 文本是否忠实反映源表格内容
幻觉(Hallucination): 是否引入不存在的事实
连贯性(Coherence): 叙述结构是否良好
数字和时间准确性: 数字和日期是否精确再现

技术架构

两阶段流水线

规划阶段: LLM采样表格并提议1-5个语义连贯的报告类型
执行阶段: 为每行×报告类型对生成简短段落

基线提取器

列选择: LLM识别段落中提到的列
单元格提取: 提取对应的键值对

数据集组成

主数据集: SEC_WikiDB
子集版本: SEC_WikiDB_subset (49个CSV文件，用于快速原型设计)

项目结构

├── src/ # 核心源代码 │ ├── kv_extraction.py # 键值提取和评估 │ ├── report_generation.py # 文本报告生成流水线 │ ├── evaluation_utils.py # 时间和单位评估工具 ├── notebooks/ # 分析笔记本 │ ├── kv_extraction_baseline.ipynb # 键值提取评估 │ ├── unit_time_evaluation.ipynb # 时间/单位分析 │ ├── gen_report_2stage.ipynb # 两阶段报告生成 │ ├── llm_judge_evaluation.ipynb # LLM评估 │ ├── paper_results.ipynb # 论文结果

使用要求

Python: 3.10+
依赖管理: Conda推荐
Java: 1.8+ (CoreNLP需要)

典型工作流

运行gen_report_2stage.ipynb生成报告
执行评估笔记本:
- kv_extraction_baseline.ipynb
- unit_time_evaluation.ipynb
- llm_judge_evaluation.ipynb
使用paper_results.ipynb聚合结果

引用格式

bibtex @inproceedings{Kashyap2025StructText, author = {Satyananda Kashyap and Sola Shirai and Nandana Mihindukulasooriya and Horst Samulowitz}, title = {StructText: A Synthetic Table‑to‑Text Approach for Benchmark Generation with Multi‑Dimensional Evaluation}, booktitle = {Proceedings of the 3rd International Workshop on Tabular Data Analysis (TaDA)}, year = {2025} }

搜集汇总

数据集介绍

构建方式

StructText数据集的构建采用了一种创新的两阶段流程，旨在生成高质量的表到文本转换基准。第一阶段通过大型语言模型对源表格进行语义分析，智能规划1-5个具有逻辑关联性的列组合作为报告类型；第二阶段针对每个行与报告类型的组合，生成仅包含选定列信息的简洁文本段落。整个流程配备四维验证机制，严格检测生成文本的事实性、幻觉率、连贯性以及数字时间准确性，确保数据质量达到研究级标准。

特点

该数据集最显著的特点在于其多维评估体系，不仅关注传统的事实性指标，还创新性地引入了幻觉检测机制，能有效识别文本中虚构的信息。通过整合斯坦福CoreNLP工具，实现了对时间表达式和数值数据的精确解析与验证。数据集提供SEC和WikiDB两种数据源版本，支持完整集和子集两种规模，并包含预生成的基准报告，为研究者提供了灵活的评估选择。

使用方法

使用该数据集需先配置Python3.10+环境并安装指定依赖库。研究人员可通过Hugging Face直接加载预处理好的数据，或运行端到端管道从头生成报告。核心工作流程包含四个模块：两阶段报告生成、键值提取评估、时空数据验证以及LLM质量评判。项目提供run_all.sh脚本实现全流程自动化，也支持分模块独立运行。特别设计的PrecisionSubsetExtractor工具支持根据自定义指标（如时间精度阈值）创建高质量数据子集，便于针对性研究。

背景与挑战

背景概述

StructText是由IBM研究院团队于2025年提出的创新型表格到文本生成基准数据集，其核心研究聚焦于解决结构化数据自然语言生成中的多维度评估难题。该数据集通过构建可信表格与生成文本的映射关系，创新性地引入了事实性、幻觉率、连贯性及数值/时间准确性四大评估维度，为自然语言生成领域提供了首个具备细粒度量化指标的评估框架。其两阶段生成流程（规划-执行）和逆向表格提取基线的设计，显著提升了生成文本的结构化信息保留能力，对金融报告生成、知识库问答等下游应用具有重要参考价值。

当前挑战

StructText主要应对表格到文本生成领域的两大核心挑战：在领域问题层面，传统方法难以平衡生成文本的流畅性与结构化数据的精确再现，特别是数值实体和时间表达经常出现语义漂移；在构建过程中，需要克服多模态评估体系的设计复杂性，包括开发自动化的事实性验证算法、建立跨模型的幻觉检测机制，以及解决时序表达式与数值单位的标准化解析问题。此外，基准数据集还需确保不同领域表格（如SEC财务报告与Wiki百科数据）在评估中的公平可比性，这对采样策略和评估指标设计提出了极高要求。

常用场景

经典使用场景

在自然语言生成与结构化数据处理的交叉领域，StructText数据集通过其独特的表格到文本转换框架，为评估生成文本的准确性与可读性提供了标准化测试平台。该数据集最典型的应用场景是验证大型语言模型在将结构化表格转换为自然语言描述时的表现，特别是在金融报告生成、知识库摘要等需要高精度数据转换的领域。其两阶段生成流程（规划-执行）模拟了人类撰写结构化报告的认知过程，使得评估更加贴近实际应用需求。

衍生相关工作

基于StructText的评估范式，学术界已衍生出多个创新研究方向。IBM团队后续开发的SEC_WikiDB混合数据集扩展了金融与百科领域的评估覆盖；斯坦福团队则受其启发开发了TempoTAB时间序列评估模块。该数据集还催生了『可解释表格生成』新课题，推动研究者开发能同时优化四维指标的端到端模型，如华为提出的HybridPlan框架便直接借鉴了其两阶段生成架构。

数据集最近研究