RUCKBReasoning/TableLLM-SFT
收藏Hugging Face2025-08-29 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/RUCKBReasoning/TableLLM-SFT
下载链接
链接失效反馈官方服务:
资源简介:
TableLLM-SFT是一个包含多个不同基准测试分割的训练集,用于微调基于CodeLlama-7b和CodeLlama-13b的TableLLM-7b和TableLLM-13b模型。该数据集的任务类别包括表格问答和文本生成,标签包括QA、代码和表格。
TableLLM-SFT is a training set containing multiple distinct benchmark splits, which is designed for fine-tuning the TableLLM-7b and TableLLM-13b models based on CodeLlama-7b and CodeLlama-13b respectively. The task categories of this dataset include table question answering and text generation, and its labels cover QA, code, and table.
提供机构:
RUCKBReasoning
原始信息汇总
数据集概述
数据集名称
- TableLLM-SFT
许可证
- MIT
语言
- 英语 (en)
配置
- 默认配置 (config_name: default)
- 数据文件
- split: fetaqa
- 路径: fetaqa.jsonl
- split: table_op
- 路径: table-op.jsonl
- split: spider
- 路径: spider.jsonl
- split: tatqa
- 路径: tatqa.jsonl
- split: wikisql
- 路径: wikisql.jsonl
- split: wtq
- 路径: wtq.jsonl
- split: fetaqa
- 数据文件
任务类别
- 表格问答 (table-question-answering)
- 文本生成 (text-generation)
标签
- 问答 (QA)
- 代码 (Code)
- 表格 (Table)
搜集汇总
数据集介绍

构建方式
在表格推理领域,TableLLM-SFT数据集的构建体现了多源异构数据的系统整合。该数据集通过汇集六个权威基准任务——包括FeTaQA、Table-OP、Spider、TAT-QA、WikiSQL和WTQ——的标注样本,构建了覆盖表格问答、代码生成及文本推理的综合性训练语料。每个子集以JSONL格式独立存储,确保了数据结构的清晰性与可扩展性。构建过程中严格遵循原始基准的标注规范,保持了任务定义与评估标准的一致性,为模型提供了跨场景的泛化训练基础。
特点
TableLLM-SFT的突出特点在于其多任务融合的架构设计。数据集不仅涵盖表格结构理解、数值计算与自然语言问答等传统任务,还整合了代码生成与复杂推理需求,形成了层次丰富的学习目标。各子集分别对应不同的挑战维度,如Spider侧重跨领域SQL生成,TAT-QA聚焦金融表格分析,这种多样性促使模型掌握跨模态的语义对齐能力。数据以英文为主,语言风格规范,标注质量经过多轮校验,为大规模语言模型的指令微调提供了高信噪比的监督信号。
使用方法
使用TableLLM-SFT时,研究者可依据具体任务需求灵活加载相应子集。每个JSONL文件对应一个基准任务,用户可通过HuggingFace数据集库直接读取并预处理。典型流程包括解析表格结构、问题文本及目标答案,进而构建指令微调所需的输入输出对。该数据集专为基于Llama3.1-8b-instruct架构的TableLLM模型优化,支持端到端的监督微调训练。实践中建议结合原始论文提供的训练脚本,以充分发挥其跨任务协同学习的潜力,推动表格推理模型的性能边界。
背景与挑战
背景概述
在自然语言处理领域,表格推理任务旨在让模型理解结构化表格数据并回答相关问题,这对于金融分析、科学研究和商业智能等应用至关重要。TableLLM-SFT数据集由中国人民大学高瓴人工智能学院的研究团队于2024年创建,其核心研究问题是提升大型语言模型在表格问答和代码生成任务中的性能。该数据集整合了多个经典基准如Spider、WikiSQL和TAT-QA,通过监督微调方式优化基于Llama3.1架构的TableLLM-8b模型,推动了表格理解与生成技术的进步,为跨模态数据处理提供了重要资源。
当前挑战
TableLLM-SFT数据集面临的挑战主要集中于两个方面:在领域问题层面,表格问答需克服语义歧义性、复杂数值推理以及跨表格关联查询等难题,要求模型精准解析表格结构与内容;在构建过程中,数据集整合了多样化的基准,但不同数据源的格式差异、标注不一致性以及规模不平衡性增加了预处理与对齐的复杂性,同时确保微调数据的高质量与代表性也成为关键挑战。
常用场景
经典使用场景
在表格理解与推理领域,TableLLM-SFT数据集为大型语言模型的监督微调提供了关键支持。该数据集整合了多个表格问答基准,如Spider、WikiSQL和TAT-QA,覆盖了从结构化查询到复杂数值推理的多样化任务。通过精心构建的指令-响应对,它使模型能够学习如何解析表格结构、提取相关信息并进行逻辑推断,从而在表格驱动的自然语言处理任务中实现精准的语义对齐与上下文生成。
解决学术问题
TableLLM-SFT致力于解决表格数据理解中的核心学术挑战,包括跨模态语义对齐、复杂查询解析以及开放域表格推理。它通过统一的训练框架,缓解了传统方法在表格结构编码与自然语言交互之间的割裂问题,提升了模型对异构表格的泛化能力。该数据集的意义在于推动了表格感知语言模型的发展,为知识密集型任务如智能数据分析、自动化报告生成奠定了理论基础,促进了人工智能在结构化数据理解领域的实质性进展。
衍生相关工作
基于TableLLM-SFT衍生的经典工作包括TableLLM系列模型,这些模型在表格问答基准上取得了显著性能提升。相关研究进一步拓展至表格到文本生成、多轮表格对话系统以及跨数据库语义解析等领域。这些工作深化了对表格语义表示的学习,启发了如TaBERT和TAPEX等后续架构的优化,共同推动了表格处理技术向更高效、更通用的方向发展。
以上内容由遇见数据集搜集并总结生成



