FreshTab
收藏arXiv2025-10-15 更新2025-10-17 收录
下载链接:
https://github.com/Kristyna-Navitas/FreshTab
下载链接
链接失效反馈官方服务:
资源简介:
FreshTab 是一个基于最近维基数据/维基百科条目的实时表到文本基准数据集生成方法,旨在解决大型语言模型 (LLM) 训练数据污染问题,并支持领域敏感评估。该数据集不受 LLM 记忆和基准污染问题的影响,因为其基础表格比 LLM 的知识截止日期更新。FreshTab 包含基本的领域标签,允许进行领域特定的评估。数据集可以在任何维基百科语言中生成,并可以根据多个领域进行配置。FreshTab 公开可用,并自动收集每个新版本的数据集。
FreshTab is a real-time table-to-text benchmark dataset generation method based on recent Wikidata and Wikipedia entries. It aims to mitigate the training data contamination issue of large language models (LLMs) and enable domain-sensitive evaluation. This dataset is immune to LLM memorization and benchmark contamination problems, as its underlying tables are updated after the knowledge cutoff dates of LLMs. FreshTab includes basic domain labels, allowing for domain-specific evaluation. The dataset can be generated in any Wikipedia language edition and configured for multiple domains. FreshTab is publicly available, and each new version of the dataset is automatically collected.
提供机构:
查尔斯大学数学与物理学院形式与应用语言学研究所
创建时间:
2025-10-15
原始信息汇总
FreshTab 数据集概述
数据集简介
FreshTab 是基于维基百科页面构建的表格到文本任务数据集,每月自动生成新版本。
核心特性
- 自动化维基百科表格提取,每月更新版本
- 支持多类别(体育、文化、政治)并支持数量配置
- 集成 LogicNLG 和 LoTNLG 的逻辑标签
- 可配置的数据收集参数
- 使用 Ollama 生成洞察,并使用 TAPEX 和 TAPAS 进行评估
技术实现
数据收集
- 通过运行
dataset_creation.py脚本启动数据收集 - 需预先配置
config.yaml文件中的邮箱参数
生成与评估
- 生成目录包含 Ollama 大语言模型输出生成脚本
- 评估目录包含数据集评估脚本
依赖安装
bash pip install -r requirements.txt
计划功能
- 多语言数据收集以构建并行数据集
- 使用大语言模型选择逻辑标签
搜集汇总
数据集介绍

构建方式
在表格到文本生成领域,FreshTab采用动态基准构建方法,通过SPARQL查询从维基数据中筛选符合时效性要求的页面,随后提取并清洗表格数据。该方法基于两个核心策略:识别特定时间段内发生的事件相关页面,以及检测知识截止日期后新创建的页面。表格选择过程中设定了行列数阈值,确保数据质量与逻辑完整性,同时为每个表格随机分配五种逻辑操作标签,以增强生成任务的多样性。
特点
FreshTab的显著特征在于其时效性与多语言支持能力,所有表格数据均产生于大型语言模型知识截止日期之后,有效规避了训练数据污染问题。该数据集涵盖体育、政治、文化等多个领域,并支持英语、德语、法语等多语言版本生成。通过配置化的领域平衡机制,FreshTab能够构建具有代表性的评估基准,其表格规模严格控制在三千字符以内,确保与现有模型的上下文窗口兼容。
使用方法
该数据集支持两种核心评估模式:直接思维链提示要求模型根据预设逻辑操作生成单一洞察,而选择模式则允许模型从九种逻辑操作中自主选取五种进行多角度分析。评估体系包含无参考自动指标(如TAPEX、TAPAS)、大型语言模型作为评判者以及人工标注三个维度。用户可通过YAML配置文件灵活调整数据采集参数,实现定制化的基准测试,特别适用于跨领域和跨语言的表格理解能力评估。
背景与挑战
背景概述
表格到文本生成作为自然语言生成领域的重要分支,旨在从结构化数据中自动提炼语义洞察,为商业分析与决策支持提供关键技术支撑。FreshTab数据集由查尔斯大学数学与物理学院形式与应用语言学研究所于2025年提出,其核心创新在于通过动态采集维基百科最新表格数据,构建实时更新的多语言评测基准。该数据集有效应对了大语言模型训练数据污染与领域不平衡两大核心问题,通过配置化生成机制支持英语、德语、俄语等多语言场景,为表格语义理解研究提供了时效性强、领域覆盖广的新型评测范式。
当前挑战
该数据集主要面临双重挑战:在领域问题层面,需解决传统静态基准中存在的模型记忆效应与领域偏差问题,确保评测结果真实反映模型泛化能力;在构建过程中,需克服维基百科海量页面中精准筛选新增表格的技术难题,包括基于SPARQL查询的启发式页面筛选、表格结构清洗与标准化处理,以及跨语言数据质量一致性保障等关键环节。此外,逻辑操作标签的随机分配策略与参考文本缺失的评测框架,也对生成内容的质量评估提出了新的技术要求。
常用场景
经典使用场景
在表格到文本生成研究领域,FreshTab数据集作为动态评估基准的典型应用体现在其对抗大型语言模型训练数据污染的能力上。该数据集通过实时采集维基百科最新表格数据,构建了超越模型知识截止日期的测试环境,有效避免了传统静态基准因数据泄露导致的性能虚高问题。研究人员利用其多语言特性和领域平衡机制,能够系统评估模型在未见数据上的真实泛化能力,特别是在处理新兴事件和多领域内容时的表现差异。
解决学术问题
FreshTab主要解决了表格到文本生成领域两个关键学术问题:数据污染对评估结果的影响以及领域不平衡带来的评估偏差。通过动态构建最新表格数据,该数据集确保了评估样本完全位于模型训练数据之外,为衡量模型真实推理能力提供了可靠基准。其引入的领域标签系统使研究者能够深入分析模型在不同主题领域的性能差异,推动了领域敏感评估方法的发展,为自然语言生成模型的鲁棒性研究提供了重要支撑。
衍生相关工作
基于FreshTab的创新设计,衍生出了一系列重要的研究工作。在动态基准构建方面,Kasner和Dušek的数据到文本生成研究为其提供了方法论基础,而White等人的LiveBench则在更广泛的LLM评估场景中延续了动态更新理念。在评估方法上,该数据集推动了无参考评估指标的发展,特别是基于TAPEX和TAPAS的表格蕴含度量方法。多语言扩展方面,研究者开始将类似方法应用于低资源语言的表格理解任务,进一步拓展了跨语言数据到文本生成的研究边界。
以上内容由遇见数据集搜集并总结生成



