tiny-aya-global-evaluation
收藏Hugging Face2026-03-03 更新2026-03-04 收录
下载链接:
https://huggingface.co/datasets/yonasachule/tiny-aya-global-evaluation
下载链接
链接失效反馈官方服务:
资源简介:
Tiny-Aya-Global Reasoning Blind Spots (TAG-RBS) 是一个诊断性数据集,旨在识别 Tiny-Aya-Global (3.35B) 模型在逻辑、数学和约束满足方面的“盲点”。该数据集包含 50 个手工制作的提示,用于测试紧凑型多语言模型的边界条件,并评估其对事后合理化的敏感性。数据集的主要目标是测量小型语言模型(SLMs)在表面模式匹配和稳健逻辑推理之间的差距。数据集的结构包括以下字段:类别(推理领域,如空间、数学、逻辑等)、提示(自然语言查询)、预期正确答案、模型响应、是否正确(基于事实和逻辑准确性的人工评估标志)以及响应时间(在 Tesla T4 GPU 上记录的推理延迟)。研究重点发现模型倾向于事后合理化,即在面对错误前提时,模型会错误地确认前提并合成看似合理但完全虚构的理由来支持错误。为缓解这些推理缺陷,提出了针对性的监督微调策略,包括语言-算术消歧、约束满足任务和认知可靠性训练。技术实现细节包括使用 4 位量化在单个 NVIDIA T4 GPU 上进行优化推理。
创建时间:
2026-02-23
原始信息汇总
Tiny-Aya-Global Reasoning Blind Spots (TAG-RBS) 数据集概述
数据集基本信息
- 许可证: cc-by-nc-4.0
- 任务类别: 文本生成
- 主要语言: 英语
- 标签: tiny-aya, reasoning, blind-spots, evaluation, llm-benchmarking, safety
- 规模类别: n<1K
- 数据集大小: 50个手工制作的提示
数据集目标
- 评估对象: CohereLabs/tiny-aya-global (3.35B参数) 模型
- 核心目标: 测量小型语言模型在表面模式匹配与稳健逻辑推理之间的差距,识别其在逻辑、数学和约束满足方面的“盲点”。
模型性能总结
模型整体准确率为 56% (28/50)。不同推理领域的性能差异显著:
| 推理类别 | 准确率 | 主要失败模式 |
|---|---|---|
| 空间推理 | 90% | 在多对象相对定位方面存在困难。 |
| 数理逻辑 | 30% | 算术解析失败(例如,“divide by half”)。 |
| 逻辑谜题 | 60% | 易受语言陷阱和脑筋急转弯问题影响。 |
| 约束遵循 | 40% | 无法遵循否定约束(例如,字母排除)。 |
| 前提处理 | 60% | 对错误前提表现出“幻觉式合理化”。 |
数据结构
数据集包含一个CSV/JSON文件,具有以下特征:
- Category: 推理领域(空间、数学、逻辑、约束、前提)。
- Prompt: 呈现给模型的自然语言查询。
- Expected_correct_answer: 真实参考答案。
- Aya_response: 3.35B模型生成的原始文本。
- Is_correct: 基于事实和逻辑准确性的人工评估标记。
- Response_time_sec: 在Tesla T4 GPU上记录的推理延迟。
研究重点:幻觉式合理化
数据集的一个关键发现是模型倾向于进行事后合理化。当面对一个错误前提时,模型通常会错误地确认该前提,并合成一个听起来合理但完全捏造的理由来支持这个错误。这表明在紧凑模型中,内部逻辑一致性可以完全独立于事实真相而存在。
提出的微调策略
为缓解这些推理缺陷,模型需要一个包含约10,000至50,000个高质量示例的针对性监督微调课程:
- 语言-算术消歧: 汇集针对语义模糊性的GSM8K对抗性变体(例如,“divide by half”)。
- 约束满足任务: 需要严格遵守词汇边界(字数、字符排除)的合成数据集。
- 认知可靠性: 一个“拒绝”数据集,训练模型识别并拒绝错误前提或时代错误,而不是合理化它们。
技术实现
评估使用4位量化进行,以优化在单个NVIDIA T4 GPU上的推理。完整的复现脚本和推理逻辑可通过以下链接访问: https://colab.research.google.com/drive/1ik68MJy9AGBz8LF_qJUnb2ADXh5ExlcO?usp=sharing
复现设置
生成数据集中响应所使用的配置如下: python from transformers import AutoModelForCausalLM, BitsAndBytesConfig import torch
T4 GPU (16GB VRAM) 量化设置
bnb_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_compute_dtype=torch.bfloat16 )
model_id = "CohereLabs/tiny-aya-global" model = AutoModelForCausalLM.from_pretrained( model_id, quantization_config=bnb_config )
搜集汇总
数据集介绍
构建方式
在评估紧凑型多语言模型推理能力的背景下,Tiny-Aya-Global Reasoning Blind Spots数据集通过人工精心构建而成。该数据集包含50个手工制作的提示,旨在系统性地探测模型在逻辑、数学和约束满足等领域的边界条件。其构建过程聚焦于设计能够揭示模型表面模式匹配与深层逻辑推理之间差距的特定问题,尤其关注模型对错误前提进行事后合理化解释的倾向,从而为小型语言模型的诊断评估提供了精准的测试基准。
特点
该数据集的核心特点在于其诊断性与针对性。它专门为评估Tiny-Aya-Global模型而设计,涵盖了空间推理、数学逻辑、逻辑谜题、约束遵循和前提处理五大类别,能够细致地揭示模型在不同推理领域的强弱表现。数据集的一个突出发现是模型存在“幻觉性合理化”现象,即面对错误前提时,模型倾向于生成看似合理但完全虚构的解释来支持错误结论,这凸显了紧凑模型内部逻辑一致性与事实真相可能脱节的关键问题。
使用方法
该数据集主要用于模型性能的诊断与评估。研究人员可通过加载提供的CSV或JSON文件,获取包含问题类别、提示、标准答案及模型原始回答在内的完整数据。利用配套的复现脚本与量化配置,可在单张T4 GPU上重现模型的推理过程,计算各项准确率指标。基于评估结果,研究者可进一步设计针对性的微调策略,例如通过合成对抗性样本或构建拒绝性任务数据集,以增强模型在逻辑歧义消除和错误前提识别方面的能力。
背景与挑战
背景概述
Tiny-Aya-Global Reasoning Blind Spots (TAG-RBS) 数据集由 CohereLabs 于近期创建,旨在系统性地诊断紧凑型多语言模型在逻辑推理与约束遵循方面的认知盲区。该数据集聚焦于评估 Tiny-Aya-Global(3.35B 参数)这一小型语言模型,核心研究问题在于揭示模型表面模式匹配与深层逻辑推断能力之间的鸿沟,尤其关注其在数学逻辑、空间推理及前提处理等关键领域的表现。通过对 50 条人工构建提示的精细分析,该数据集为理解小型模型在复杂推理任务中的局限性提供了实证基础,推动了轻量级模型鲁棒性评估方法的发展,对多语言自然语言处理领域的模型优化与安全对齐具有重要参考价值。
当前挑战
该数据集致力于解决小型语言模型在逻辑推理与约束遵循领域的核心挑战,具体包括模型在数学逻辑解析(如“除以一半”的语义歧义)、多对象空间关系推断、语言陷阱敏感性以及错误前提下的幻觉合理化等方面的系统性缺陷。在构建过程中,挑战主要源于人工设计能够精准触及模型认知边界的诊断性提示,需确保每个提示均能有效暴露特定类型的推理盲区,同时维持评估的多样性与平衡性。此外,生成高质量的训练数据以针对性地修正这些缺陷,例如通过前沿模型合成对抗性示例,亦构成了数据构建与后续微调策略设计的关键难点。
常用场景
经典使用场景
在小型语言模型评估领域,Tiny-Aya-Global Reasoning Blind Spots数据集被广泛应用于诊断模型的逻辑推理盲点。该数据集通过精心设计的50个提示,系统性地测试模型在空间推理、数学逻辑、谜题解析等领域的表现,尤其关注模型在约束遵循和前提处理方面的脆弱性。研究人员利用这一数据集,能够深入剖析紧凑型多语言模型在表面模式匹配与深层逻辑推断之间的鸿沟,为模型性能的精细化评估提供了标准化工具。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在小型语言模型的矫正与增强领域。研究者受其启发,开发了基于对抗性样本的微调策略,例如利用前沿大模型作为教师,通过知识蒸馏合成高质量训练样本以强化逻辑推理能力。相关研究进一步拓展了针对模型事后合理化现象的拒绝机制训练,推动了紧凑模型在保持高效性的同时提升事实一致性的算法创新,为轻量级语言模型的可靠部署奠定了方法论基础。
数据集最近研究
最新研究方向
在紧凑型多语言模型评估领域,Tiny-Aya-Global-Evaluation数据集聚焦于揭示小型语言模型在逻辑推理与约束遵循方面的内在盲点。前沿研究正深入探讨模型在数学逻辑解析与前提处理中的系统性缺陷,特别是针对后验合理化倾向所引发的幻觉性论证问题。热点方向涉及利用对抗性样本构建精细化微调策略,通过合成数据集强化模型对语义歧义与错误前提的识别能力,旨在缩小表面模式匹配与稳健逻辑推断之间的差距。这一探索不仅推动了小型模型在安全性与可靠性方面的评估标准演进,也为知识蒸馏框架下教师-学生模型的协同优化提供了关键实证基础,对多语言场景下的高效推理模型发展具有显著意义。
以上内容由遇见数据集搜集并总结生成



