RADAR

github2025-06-12 更新2025-06-14 收录

下载链接：

https://github.com/kenqgu/RADAR

下载链接

链接失效反馈

官方服务：

资源简介：

RADAR（Robust And Data Aware Reasoning）基准测试旨在评估语言模型在识别、推理和适当处理复杂数据工件（如缺失数据、坏值、异常值、不一致格式和不一致多列逻辑）方面的能力。完整数据集包含53个基于真实世界数据表的任务，涵盖不同类型的数据工件和表维度（按标记计数和列数）。总共，RADAR提供了2,980个独特的查询表任务实例。

The RADAR (Robust And Data Aware Reasoning) benchmark is designed to evaluate the ability of language models to identify, reason about, and appropriately handle complex data artifacts, such as missing data, invalid values, outliers, inconsistent formats, and inconsistent cross-column logic. The complete dataset includes 53 tasks based on real-world data tables, covering diverse types of data artifacts and table dimensions (measured by token count and number of columns). In total, RADAR provides 2,980 unique query table task instances.

创建时间：

2025-05-16

原始信息汇总

RADAR数据集概述

数据集简介

全称：Robust And Data Aware Reasoning (RADAR) benchmark
目的：评估语言模型在数据感知能力方面的表现，包括识别、推理和处理复杂数据异常的能力
数据异常类型：
- 缺失数据
- 错误值
- 异常值
- 不一致的格式
- 多列逻辑不一致

数据集规模

任务数量：53个
查询-表任务实例：2,980个唯一实例
数据来源：来自健康、教育、体育等多个领域的真实世界数据表

数据集特点

多样性：涵盖不同类型的数据异常和不同维度的表格（按标记数量和列数划分）
构建方法：
- 通过众包收集真实世界数据表
- 使用专家编写的程序化函数生成真实答案
- 通过生成扰动和恢复版本的原始表来模拟数据异常

数据集获取与使用

获取地址：https://huggingface.co/datasets/kenqgu/radar/
加载方式： python from radar.data import load_task_instances_hf tasks, task_summary_df = load_task_instances_hf(split="full")
数据集分割：
- full：完整数据集
- tasks：仅包含任务（RADAR-T）
- sizes：尺寸变体（RADAR-S）

构建自定义任务

方法：在task_example文件夹中编写程序化扰动函数
构建命令： bash build task_example/influenza-like-illness/ --num-cols-list 10,20 --token-buckets 4000,8000

基准测试

工具：使用langfun运行语言模型API
评估方式：
- 命令行： bash evalaute gpt-4.1 tasks
- Notebook：
  - direct_prompting.ipynb
  - code_agent.ipynb

引用

bibtex @article{gu2025radar, title={RADAR: Benchmarking Language Models on Imperfect Tabular Data}, author={Gu, Ken and Zhang, Zhihan and Lin, Kate and Zhang, Yuwei and Paruchuri, Akshay and Yu, Hong and Kazemi, Mehran and Ayush, Kumar and Heydari, A Ali and Xu, Maxwell A and others}, journal={arXiv preprint arXiv:2506.08249}, year={2025} }

搜集汇总

数据集介绍

构建方式

在数据科学领域，处理不完美表格数据的能力是评估语言模型实用性的关键指标。RADAR基准通过精心设计的构建流程，从真实世界的多领域数据表中筛选原始素材，涵盖医疗、教育、体育等多样化场景。研究团队采用专家编写的程序化函数，首先生成不受表格维度影响的基准答案，随后系统性地模拟缺失值、异常数据、格式混乱等典型数据缺陷，最终生成包含原始表、扰动表和修复表的三重对比数据。这种基于真实数据与可控扰动相结合的构建策略，确保了评估任务既具有现实复杂性又具备科学可重复性。

使用方法

研究者可通过Hugging Face平台便捷获取RADAR数据集，利用提供的load_task_instances_hf函数直接加载完整数据集或特定子集（RADAR-T任务集或RADAR-S规模变体）。评估流程支持通过命令行工具快速测试不同语言模型，用户只需配置相应API密钥即可运行预设评估方案。对于需要深度定制的场景，项目提供了完整的任务构建模板和Jupyter Notebook示例，包括直接提示和代码代理两种基线方法的实现细节，支持研究者基于真实业务场景扩展新的数据缺陷类型和评估维度。

背景与挑战

背景概述

RADAR（Robust And Data Aware Reasoning）基准测试由Ken Gu等研究人员于2025年提出，旨在评估语言模型在处理不完美表格数据时的数据感知能力。该数据集由来自健康、教育、体育等多个领域的真实表格数据构成，通过专家编写的程序化函数生成包含缺失数据、异常值、格式不一致等复杂数据工件的扰动表格。RADAR包含53个任务和2,980个独特的查询-表格任务实例，为自然语言处理领域提供了首个系统性评估语言模型在非理想数据条件下推理能力的基准平台。该研究由多机构团队合作完成，相关论文发表于arXiv预印本平台，对推动语言模型在真实场景中的应用具有重要意义。

当前挑战

RADAR基准测试主要应对两大挑战：在领域问题层面，现有语言模型往往难以有效识别和处理表格数据中的各类异常情况，如多列逻辑不一致、异常值干扰等问题，这限制了模型在真实业务场景中的实用价值；在数据构建层面，研究团队需要设计既能保持原始数据语义又能系统引入数据工件的扰动算法，同时确保不同维度表格中基准答案的生成具有一致性。此外，如何平衡数据工件的多样性与评估任务的可行性，以及如何建立跨不同表格维度的可比评价指标，都是构建过程中需要解决的技术难点。

常用场景

经典使用场景

在自然语言处理领域，RADAR数据集为评估语言模型在处理不完美表格数据时的能力提供了标准化基准。该数据集通过模拟真实世界中的缺失数据、异常值、格式不一致等复杂数据问题，为研究者提供了一个全面测试模型数据感知能力的平台。其53个任务覆盖了多种数据异常类型和表格维度，使得模型能够在多样化场景下接受检验。

解决学术问题

RADAR数据集有效解决了语言模型在处理非结构化表格数据时面临的学术挑战。通过提供程序化生成的数据扰动和恢复版本，该数据集使研究者能够系统评估模型识别数据异常、进行跨列逻辑推理的能力。这种标准化评估方法填补了语言模型在数据感知能力评估方面的空白，为改进模型在真实场景中的表现提供了科学依据。

实际应用

在实际应用中，RADAR数据集的价值体现在提升语言模型处理真实业务数据的能力。从医疗健康到教育体育，各类领域都存在大量不完美的表格数据。该数据集帮助开发的模型能够更可靠地处理这些包含各种数据问题的表格，为商业智能分析、自动化报告生成等应用场景提供了技术保障。

数据集最近研究