StructText
收藏StructText 数据集概述
数据集基本信息
- 名称: StructText
- 类型: 表格到文本的合成数据集构建工具
- 许可证: MIT
- 托管平台: Hugging Face (https://huggingface.co/datasets/ibm-research/struct-text)
- 相关论文: StructText: A Synthetic Table-to-Text Approach for Benchmark Generation with Multi-Dimensional Evaluation (TaDA @ VLDB 2025)
核心功能
- 数据集构建器: 从可信表格生成文本报告
- 基线生成器: 提供文本到表格的提取基线
- 评估工具包: 四维评估体系
四维评估指标
- 事实性(Factuality): 文本是否忠实反映源表格内容
- 幻觉(Hallucination): 是否引入不存在的事实
- 连贯性(Coherence): 叙述结构是否良好
- 数字和时间准确性: 数字和日期是否精确再现
技术架构
两阶段流水线
- 规划阶段: LLM采样表格并提议1-5个语义连贯的报告类型
- 执行阶段: 为每行×报告类型对生成简短段落
基线提取器
- 列选择: LLM识别段落中提到的列
- 单元格提取: 提取对应的键值对
数据集组成
- 主数据集: SEC_WikiDB
- 子集版本: SEC_WikiDB_subset (49个CSV文件,用于快速原型设计)
项目结构
├── src/ # 核心源代码 │ ├── kv_extraction.py # 键值提取和评估 │ ├── report_generation.py # 文本报告生成流水线 │ ├── evaluation_utils.py # 时间和单位评估工具 ├── notebooks/ # 分析笔记本 │ ├── kv_extraction_baseline.ipynb # 键值提取评估 │ ├── unit_time_evaluation.ipynb # 时间/单位分析 │ ├── gen_report_2stage.ipynb # 两阶段报告生成 │ ├── llm_judge_evaluation.ipynb # LLM评估 │ ├── paper_results.ipynb # 论文结果
使用要求
- Python: 3.10+
- 依赖管理: Conda推荐
- Java: 1.8+ (CoreNLP需要)
典型工作流
- 运行
gen_report_2stage.ipynb生成报告 - 执行评估笔记本:
kv_extraction_baseline.ipynbunit_time_evaluation.ipynbllm_judge_evaluation.ipynb
- 使用
paper_results.ipynb聚合结果
引用格式
bibtex @inproceedings{Kashyap2025StructText, author = {Satyananda Kashyap and Sola Shirai and Nandana Mihindukulasooriya and Horst Samulowitz}, title = {StructText: A Synthetic Table‑to‑Text Approach for Benchmark Generation with Multi‑Dimensional Evaluation}, booktitle = {Proceedings of the 3rd International Workshop on Tabular Data Analysis (TaDA)}, year = {2025} }




