UnitSafe

Hugging Face2026-04-23 更新2026-04-24 收录

下载链接：

https://huggingface.co/datasets/radiativity/UnitSafe

下载链接

链接失效反馈

官方服务：

资源简介：

UnitSafe是一个用于评估AI模型在计量推理方面能力的基准数据集，特别关注维度正确计算和区分物理上不同但具有相同SI维度的量。该数据集包含500个问题，涵盖13个科学领域，包括热力学、辐射物理、药代动力学、电气工程等。数据集分为376个转换问题和124个必须失败问题，旨在测试模型的三个关键能力：维度计算、维度安全和KOQ区分。每个问题以JSON格式存储，包含问题ID、问题文本、答案、量种类、SI签名、难度等级等字段。数据集还包含10个KOQ退化簇，用于测试模型在区分物理上不同但维度相同的量方面的能力。UnitSafe适用于评估LLM和AI系统在需要精确单位转换和维度安全的实际应用中的表现，如临床、制药、航空航天和工程等领域。

UnitSafe is a benchmark dataset designed to evaluate the capabilities of AI models in dimensional reasoning, with a particular focus on correct dimensional calculations and distinguishing between physically different quantities that share the same SI dimensions. The dataset comprises 500 questions spanning 13 scientific domains, including thermodynamics, radiation physics, pharmacokinetics, electrical engineering, and more. It is divided into 376 conversion problems and 124 must-fail problems, targeting three key capabilities of models: dimensional calculation, dimensional safety, and KOQ discrimination. Each question is stored in JSON format and includes fields such as question ID, question text, answer, quantity kind, SI signature, and difficulty level. The dataset also contains 10 KOQ degenerate clusters to test the models ability to distinguish between physically different but dimensionally identical quantities. UnitSafe is suitable for evaluating the performance of LLMs and AI systems in real-world applications requiring precise unit conversion and dimensional safety, such as clinical, pharmaceutical, aerospace, and engineering fields.

创建时间：

2026-04-22

原始信息汇总

UnitSafe：计量推理基准数据集

数据集概述

UnitSafe 是一个用于评估 AI 模型 计量推理能力 的基准数据集，由 500 个问题组成，旨在测试模型是否能进行量纲正确的计算，并区分具有相同 SI 量纲但物理意义不同的物理量（即 物理量种类（KOQ）辨别 能力）。

核心能力测试

量纲运算：正确进行跨系统（SI、CGS、英制、临床单位）的多步单位转换。
量纲安全：在量纲不兼容时拒绝生成数值答案。
KOQ 辨别：识别量纲相同但物理本质不同的物理量（如扭矩≠能量、吸收剂量≠等效剂量），并在缺乏必要桥梁信息时拒绝转换。

数据集统计

统计项	数值
问题总数	500
转换问题	376
必须拒绝问题	124
科学领域	13
KOQ 简并簇	10
唯一 SI 量纲签名	62
唯一物理量种类	102
难度等级	4

领域分布

领域	问题数	描述
热力学	57	熵、焓、吉布斯自由能、热容
辐射物理	45	吸收剂量、等效剂量、活度、kerma、质子 RBE
药物动力学	43	清除率、AUC、Vd、生物利用度、剂量计算
电气工程	42	功率三角形（VA/W/var）、磁学、电路、谐振
跨领域安全	41	混合领域量纲不匹配和 KOQ 陷阱
力学/结构	41	扭矩 vs 能量、应力 vs 压强 vs 能量密度
流体动力学	39	粘度、雷诺数、水头损失、流量转换
地球物理/大气科学	37	压强体系、辐射强迫、风速、海拔
生物化学/临床	36	浓度单位、酶活性（katal vs IU）、pH、渗透压
光度学/辐射度量学	33	光通量 vs 辐射通量、辐照度、维恩定律、光子能量
护理/医学	32	静脉滴注速率、按体重给药、血管升压药物计算
化学工程	31	传热、粘度、反应动力学、阿伦尼乌斯方程
天文学	23	秒差距/光年/AU、星等系统、开普勒定律、史瓦西半径

KOQ 简并簇

簇名称	SI 量纲签名	简并物理量种类	问题数
cluster_3_kJmol	M·L²·T⁻²·N⁻¹	摩尔焓、吉布斯自由能、化学势	36
cluster_7	M·L⁻¹·T⁻²	压强、应力、能量密度	33
cluster_4_Jkg	L²·T⁻²	吸收剂量（Gy）、等效剂量（Sv）、kerma	24
cluster_6_VA_W_var	M·L²·T⁻³	有功功率（W）、视在功率（VA）、无功功率（var）	14
cluster_5_Nm	M·L²·T⁻²	扭矩、能量、功	12
cluster_2_JKmol	M·L²·T⁻²·Θ⁻¹·N⁻¹	摩尔熵、摩尔热容	12
cluster_1_JK	M·L²·T⁻²·Θ⁻¹	熵、热容	11
cluster_9	变化	光通量（lm）vs 辐射通量（W）	8
cluster_10	无量纲	视星等 vs 绝对星等 vs 热星等	5
cluster_8_invS	T⁻¹	放射性活度（Bq）vs 频率（Hz）	3

难度等级

等级	描述	问题数
tier_1	单步单位转换	163
tier_2	多步转换或需 KOQ 意识	204
tier_3	多步骤结合领域知识（如 RBE、功率因数）	107
tier_4	物理推理、代数结构或约束满足	26

问题类型

类型	数量	描述
转换问题	376	生成带单位的正确数值答案
必须拒绝（量纲）	62	拒绝：量纲不兼容
必须拒绝（KOQ）	62	拒绝：量纲匹配但物理量种类不同

数据模式

每个问题为 JSON 对象，包含以下字段：

problem_id：问题唯一标识符
problem_text：问题文本描述
answer：答案对象，包含 value（数值，float64）、unit（单位，字符串）、tolerance_pct（容差百分比，float64）
quantity_kind：物理量种类对象，包含 key（键值，字符串）和 category（类别，字符串）
si_signature：SI 基量纲指数签名（字符串）
koq_cluster：KOQ 简并簇名称（字符串）
koq_confuser：模型可能错误分配的物理量种类名称（字符串）
difficulty：难度等级（字符串）
must_fail：布尔值，表示该问题是否必须拒绝回答
expected_error：对于必须拒绝的问题，指定错误类型（dimension_mismatch、koq_mismatch 或 insufficient_context）
source：来源对象，包含 dataset（数据集名称，字符串）和 origin（起源领域，字符串）
tags：标签列表（字符串序列）

评估指标

整体准确率：所有 500 个问题的正确率
转换准确率：376 个转换问题的正确率
拒绝准确率：124 个必须拒绝问题的正确拒绝率
KOQ 辨别得分：62 个 KOQ 必须拒绝问题中正确识别为 KOQ 不匹配的比例
每簇 KOQ 得分：每个 KOQ 简并簇内的准确率
每领域准确率：按科学领域划分的性能
每等级准确率：按难度等级划分的性能

预期用途

AI 实验室模型评估
受监管行业采购评估
工具增强型 AI 评估
教育研究

限制

转换问题的答案基于计算值，容差窗口可能无法涵盖多步问题的所有有效解法
基准测试测试的是 KOQ 区分的识别能力，而非解决能力
领域覆盖广泛但并非详尽无遗
必须拒绝问题采用保守的安全立场，某些上下文下领域专家可能认为某些标记的转换在有适当说明时可接受

许可协议

Apache-2.0

搜集汇总

数据集介绍

构建方式

UnitSafe数据集由Emmanuel I. Obi精心设计，旨在评估AI模型在计量推理方面的能力。该数据集包含500道精心构造的题目，其中376道为单位换算题，124道为必须拒绝回答的“必须失败”题目。每道题目均包含问题描述、标准答案（含数值、单位及容差）、物理量种类、SI量纲签名、困难等级及来源等结构化信息。数据集的构建依托于物理、工程、医学等13个科学领域，并独创性地引入了“物理量种类简并簇”概念，将102种不同物理量归类至10个具有相同SI基本量纲却具有不同物理含义的簇中，以此测试模型对量纲相同但物理意义不同的量进行区分的能力。题目灵感来源于真实世界中因单位错误导致的事故案例，如火星气候轨道器丢失、放射治疗辐射过量等。

特点

UnitSafe的核心特色在于其首创的“物理量种类（KOQ）区分”测试维度，这是对传统单位换算基准的突破性超越。数据集中的题目不仅要求模型进行多步跨系统的量纲计算，更着重考察模型对量纲相同但物理本质不同的量的辨别能力。例如，它测试模型是否能区分扭矩与能量、吸收剂量与当量剂量、视在功率与有功功率等易混淆的量。此外，数据集设立了四个困难等级，从单步换算逐步进阶至需要物理想象与代数结构的复杂推理。特别值得一提的是，数据集包含了124道“必须失败”题目，其中62道系量纲不兼容，另62道系量纲相同但物理量种类不同，模型若输出数值即视为失败，以此严格检验模型的安全拒绝能力。

使用方法

研究者可通过HuggingFace的Datasets库便捷加载UnitSafe数据集。针对不同分析目标，用户可灵活筛选子集：如依据科学领域筛选辐射物理或药代动力学问题，或筛选所有必须失败题目以测试模型安全边界。推荐的评估指标包括总体准确率、换算题准确率、拒绝题准确率及KOQ区分分数。尤为重要的是，UnitSafe设计了一个“小模型假说”验证框架，鼓励研究者为模型配备量纲分析工具（如ucon库），通过对比有无工具辅助下的模型性能，探究计量正确性是通过验证还是通过模型规模更易实现。该基准已明确设定了回答通过/失败的标准，为不同规模的AI系统提供了统一、可复现的计量推理测评平台。

背景与挑战

背景概述

UnitSafe基准测试由Emmanuel I. Obi于2026年创建，旨在评估人工智能模型在计量推理方面的能力，特别是区分共享相同量纲但物理意义不同的量（如扭矩与能量、吸收剂量与等效剂量）。该数据集由500个问题组成，涵盖13个科学领域，包括热力学、辐射物理、药代动力学等，核心研究问题在于测试模型的量纲计算、量纲安全以及量类辨识能力。UnitSafe的发布对相关领域产生了深远影响，为AI在临床、制药、航空航天等高风险场景中的安全应用提供了关键评估工具。

当前挑战

UnitSafe所解决的领域问题挑战在于，传统单位转换基准仅测试算术能力，而未能检验模型对量纲一致性和量类差异的理解，这种缺失曾导致火星气候轨道器失联、放射治疗过量等严重事故。构建过程中面临的挑战包括：设计覆盖62种唯一量纲签名和102种量类的复杂问题集，确保量类退化簇（如10个共享量纲但物理量不同的簇）的精确区分，以及定义124个必须拒绝的陷阱问题，以验证模型在缺乏上下文信息时的安全拒绝能力。

常用场景

经典使用场景

UnitSafe作为首个专门评估AI系统量纲推理能力的基准测试集，其最经典的使用场景在于检验大型语言模型在执行单位换算与量纲分析时的准确性。该数据集精心设计了500道涵盖13个科学领域的问题，包括单步与多步单位转换、必须拒绝回答的维度不兼容情形，以及物理量种类辨别任务。研究者常将其作为评测模型是否具备严谨的量纲安全意识的黄金标准，尤其关注模型在扭矩与能量、吸收剂量与等效剂量等物理量具有相同SI量纲却本质不同这一微妙场景下的表现。

解决学术问题

UnitSafe着力攻克了人工智能在计量学推理领域的两个核心学术难题：一是模型无法识别不同物理量虽拥有相同量纲却属于不同物理量种类的问题，二是模型在遇到维度不兼容或信息缺失的单位换算时倾向于给出错误数值而非合理拒绝。通过引入must_fail机制和KOQ混淆簇设计，该数据集使得研究者能够系统性地评估模型在量纲计算、量纲安全以及物理量种类判别这三方面能力，为理解大模型在科学计算中的推理缺陷提供了量化分析工具。

衍生相关工作

UnitSafe的诞生催生了一系列相关联的经典研究工作，其中最引人注目的是关于小模型假设的探讨——即配备量纲验证工具的小型模型是否能在计量学推理任务中超越未装备此类工具的大规模前沿模型。这一假设直接推动了量化分析工具与AI模型协同推理的研究方向，例如基于ucon工具库的量纲验证框架的开发。此外，该数据集还为物理教育领域的研究者提供了分析大模型在单位与量纲方面常见误解的参照，启发了一系列关于AI科学推理中认知模因的相关工作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集