Radar

Name: Radar
Creator: 谷歌研究
Published: 2025-06-10 05:32:47
License: 暂无描述

arXiv2025-06-10 更新2025-06-12 收录

下载链接：

https://huggingface.co/datasets/kenqgu/RADAR

下载链接

链接失效反馈

官方服务：

资源简介：

Radar 数据集由谷歌研究团队开发，旨在评估语言模型在处理包含数据瑕疵的表格数据时的数据感知推理能力。该数据集包含2980个表格查询对，覆盖9个领域和5种数据瑕疵类型，通过众包方式收集真实世界数据，并使用程序化扰动来模拟数据瑕疵。数据集设计灵活，支持多种扰动类型和可控制的表格大小，为表格推理研究提供了宝贵的资源。

The Radar dataset was developed by the Google Research team to evaluate the data-aware reasoning capabilities of language models when processing tabular data with data flaws. It contains 2980 table-query pairs that cover 9 domains and 5 types of data flaws. Real-world data was collected via crowdsourcing, and programmatic perturbations were utilized to simulate these data flaws. The dataset boasts a flexible design that supports multiple perturbation types and controllable table sizes, making it a valuable resource for tabular reasoning research.

提供机构：

谷歌研究

创建时间：

2025-06-10

搜集汇总

数据集介绍

构建方式

Radar数据集的构建采用了专家策划和众包相结合的方法。首先，数据科学专家从真实世界的数据源中筛选了53个多样化的数据集，涵盖了教育、健康、商业等9个领域。这些数据集经过清洗和规范化，确保初始数据无瑕疵。随后，专家团队编写了260个程序化扰动函数，通过模拟缺失数据、错误值、异常值、格式不一致和逻辑矛盾等五种常见的数据瑕疵，生成了2980个表查询对。每个扰动实例均经过严格验证，确保评估的针对性和可控性。

特点

Radar数据集的核心特点在于其系统性和真实性。它不仅覆盖了多种数据瑕疵类型，还通过控制表格大小（从2K到16K tokens）研究了模型在处理不同规模数据时的表现。数据集中的每个查询对均基于真实场景设计，并经过专家审核，确保了任务的挑战性和实用性。此外，Radar支持灵活的扰动类型和表格尺寸配置，使其成为评估语言模型在嘈杂表格数据上推理能力的理想基准。

使用方法

使用Radar数据集时，研究者可通过两种主要方式进行评估：直接提示（direct prompting）和代码代理（code agent）。直接提示要求模型直接基于给定的表格和自然语言查询生成答案，适用于测试模型的端到端推理能力。代码代理则允许模型调用Python环境进行数据操作，更适合评估模型在工具辅助下的分析能力。评估时需重点关注模型在干净表格和扰动表格上的表现差异，以及其处理不同规模表格时的稳定性。数据集提供的标准化答案函数支持自动化的精确匹配（exact match）评估，确保结果的可比性。

背景与挑战

背景概述

Radar数据集由Google Research和Google DeepMind的研究团队于2025年创建，旨在评估语言模型在不完美表格数据上的数据感知推理能力。该数据集聚焦于现实世界中普遍存在的数据质量问题，如缺失值、异常值、逻辑不一致等，这些问题若处理不当会严重影响数据分析的有效性。Radar包含2980个表格查询对，覆盖9个领域和5种数据异常类型，通过程序化扰动生成具有真实数据异常特征的表格，为评估语言模型在真实场景下的鲁棒性提供了标准化基准。该数据集推动了语言模型作为数据分析代理的研究，尤其在医疗、金融等高风险领域具有重要意义。

当前挑战

Radar数据集面临的核心挑战包括：1) 领域问题挑战：要求模型识别和处理表格中多种复杂的数据异常（如逻辑矛盾、格式不一致等），这需要超越传统表格理解的深层推理能力；2) 构建挑战：需平衡异常注入的真实性与可评估性，通过260个专家编写的扰动函数精确控制异常类型和程度，同时确保每个查询存在客观正确答案；3) 规模挑战：需设计支持不同表格尺寸（行/列）的评估框架，以研究模型在长上下文和复杂表结构下的表现退化问题。这些挑战使得Radar成为当前最全面评估语言模型数据感知能力的基准。

常用场景

经典使用场景

Radar数据集主要用于评估语言模型在存在数据缺陷的表格数据上的推理能力。其经典使用场景包括模拟真实世界中的表格数据问题，如缺失值、异常值、逻辑不一致等，以测试模型的数据感知能力。

衍生相关工作

Radar数据集衍生了一系列相关研究，包括改进语言模型对表格数据的理解能力、开发新的数据清洗和修复算法，以及探索模型在不同规模和复杂度表格上的表现。这些工作进一步推动了语言模型在数据分析和处理领域的应用。

数据集最近研究