StructText
收藏arXiv2025-07-29 更新2025-07-31 收录
下载链接:
https://huggingface.co/datasets/ibm-research/struct-text, https://github.com/ibm/struct-text
下载链接
链接失效反馈官方服务:
资源简介:
StructText是一个端到端框架,用于自动生成从文本中提取键值的高保真度基准。它使用现有的表格数据作为结构化基准,并通过两阶段的“计划-执行”流程来合成生成相应的自然语言文本。为了确保文本与结构化源之间的对齐,我们引入了一种多维评估策略,该策略结合了(a)基于LLM的判断,涉及事实性、幻觉和连贯性,以及(b)测量数值和时间准确性的客观提取指标。我们在49个数据集的71,539个示例上评估了所提出的方法。结果表明,尽管LLM实现了强大的事实性准确性和避免了幻觉,但在生成可提取的文本方面,它们在叙事连贯性方面却遇到了困难。值得注意的是,模型以高保真度假设数值和时间信息,但这些信息嵌入在难以自动提取的叙事中。我们发布了一个框架,包括数据集、评估工具和基线提取系统,以支持持续的研究。我们的发现突出了一个关键差距:模型可以生成准确的文本,但在保持信息可访问性方面却遇到了困难,这是在各个领域实际部署的关键要求,既需要准确性,也需要机器可处理性。
StructText is an end-to-end framework for automatically generating high-fidelity benchmarks for key-value extraction from text. It leverages existing tabular data as structured benchmarks, and synthesizes corresponding natural language texts via a two-stage "plan-execute" workflow. To ensure alignment between generated texts and their structured sources, we introduce a multi-dimensional evaluation strategy that combines (a) LLM-based judgments covering factuality, hallucination, and coherence, and (b) objective extraction metrics measuring numerical and temporal accuracy. We evaluated the proposed method on 71,539 examples across 49 datasets. The results demonstrate that while LLMs achieve strong factual accuracy and avoid hallucinations, they struggle with narrative coherence when generating extractable texts. Notably, models generate numerical and temporal information with high fidelity, yet such information is embedded within narratives that are difficult to automatically extract. We release a framework encompassing the dataset, evaluation tools, and baseline extraction systems to support ongoing research. Our findings highlight a critical gap: while models can generate accurate texts, they face challenges in maintaining information accessibility—a key requirement for real-world deployment across various domains that demands both accuracy and machine processability.
提供机构:
IBM Research
创建时间:
2025-07-29
搜集汇总
数据集介绍

构建方式
StructText数据集采用了一种创新的两阶段‘规划-执行’流程来构建。首先,利用大型语言模型(LLM)分析输入表格的样本行,自主识别数据模式和关系,生成有意义的报告结构。这一阶段无需人工干预,模型通过分析列语义、数据类型和值分布来理解数据的固有结构。随后,在生成阶段,模型根据规划的报告类型和选定的列子集,生成严格遵循原始数据的连贯叙述文本。这种方法不仅确保了生成文本的高保真度,还大幅降低了人工标注的成本和复杂性。
使用方法
StructText数据集的使用方法包括三个主要步骤:生成、评估和过滤。用户可以利用提供的框架,将任何现有的表格数据输入到系统中,自动生成对应的自然语言文本。随后,通过多维度的质量评估框架(包括LLM评判和数值/时间准确性验证)对生成文本进行评分。最后,用户可以根据评估结果对低质量文本进行过滤,确保数据集的整体质量。此外,数据集还提供了基线提取方法,帮助用户评估和比较不同文本到表格提取系统的性能。这种端到端的工作流程使StructText成为一个灵活且实用的工具,适用于各种研究和应用场景。
背景与挑战
背景概述
StructText是由IBM研究院的Satyananda Kashyap、Sola Shirai、Nandana Mihindukulasooriya和Horst Samulowitz于2025年提出的一个创新性框架,旨在解决结构化数据到自然语言文本转换的基准生成问题。该数据集的核心研究问题聚焦于如何自动生成高质量的文本基准,以评估大型语言模型(LLMs)在从文本中提取结构化信息(如键值对)的能力。StructText通过利用现有表格数据作为结构化基础,采用“计划-执行”两阶段流程生成对应的自然语言文本,从而为文本到表格的提取任务提供了新的评估标准。该数据集的推出填补了特定领域或组织文档中缺乏高质量评估基准的空白,显著推动了信息提取和自然语言生成领域的研究进展。
当前挑战
StructText面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,StructText旨在解决文本到表格信息提取的评估难题,特别是在特定领域或组织文档中,现有基准往往局限于单一领域(如维基百科),且缺乏对数值保真度和模式覆盖的全面测试。StructText通过多维度评估策略(如事实性、幻觉检测和连贯性)来应对这一挑战。在构建过程中,主要挑战包括如何确保生成的文本与源表格数据的严格对齐,以及如何处理数值和时间信息的精确性。此外,自动生成文本的连贯性和信息可提取性也是构建过程中的关键难点,这要求模型在生成准确文本的同时,保持信息的可访问性和机器可处理性。
常用场景
经典使用场景
StructText数据集在自然语言处理领域中被广泛用于评估和优化大型语言模型(LLMs)在结构化数据到文本生成任务中的表现。其经典使用场景包括金融报告生成、医疗记录摘要以及法律文档解析等需要高精度信息转换的领域。通过自动生成与原始表格数据对应的自然语言文本,StructText为研究人员提供了一个标准化的测试平台,以验证模型在保持信息准确性和语义连贯性方面的能力。
解决学术问题
StructText解决了当前文本到表格转换研究中缺乏高质量、多领域基准数据集的问题。通过自动生成合成文本,该数据集填补了信息提取任务中真实性与多样性之间的鸿沟,特别是在金融、医疗等高度规范化的领域。其多维评估框架不仅关注表面形式的匹配,还深入检验数值准确性、时间一致性和语义忠实度,为学术界提供了更全面的模型评估标准。
实际应用
在实际应用中,StructText支持企业自动化文档处理流程,如将SEC财务文件转换为可读报告,或从医疗记录中提取关键指标。其生成的合成文本可作为训练数据,提升模型在特定领域的表现。此外,该数据集还被用于开发更智能的问答系统,通过将非结构化文本转换为表格形式,实现基于SQL的高效数据查询与分析。
数据集最近研究
最新研究方向
在结构化数据与自然语言处理的交叉领域,StructText数据集的研究正聚焦于多维度评估框架的优化与跨领域适应性扩展。当前前沿探索集中在三个维度:一是通过改进LLM的规划-生成两阶段管道,提升合成文本的叙事连贯性,以解决现有模型在金融、医疗等专业领域生成的文本虽事实准确但可读性不足的痛点;二是开发细粒度的数值与时态验证算法,针对SEC filings等场景中复杂的财务周期表述(如“2024 Q4”与“第四季度”的语义等价性)建立鲁棒性更强的解析体系;三是构建开放域评估基准,突破现有WikiDB等单领域限制,通过模块化设计支持法律文书、学术论文等多源表格数据的自动化转换与评估。该方向与全球AI监管热点形成呼应,欧盟AI法案对金融报告生成系统的可审计性要求,正推动此类研究在信息可追溯性方面的突破。
相关研究论文
- 1StructText: A Synthetic Table-to-Text Approach for Benchmark Generation with Multi-Dimensional EvaluationIBM Research · 2025年
以上内容由遇见数据集搜集并总结生成



