qwen-blindspots

Hugging Face2026-03-13 更新2026-03-16 收录

下载链接：

https://huggingface.co/datasets/evanabose/qwen-blindspots

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含Qwen3-4B模型产生错误或弱响应的提示。每条数据包含输入提示、预期输出、模型输出和类别。提示设计用于测试多种推理领域，包括算术、字符计数、逻辑推理、空间推理、事实知识、字谜、多语言、时间推理、模式识别和技巧推理。测试揭示了模型的五个明显失败类别：字符计数、逻辑推理与错误前提、事实知识（地理）、字谜识别和幻觉。为修复这些盲点，建议在以下方面进行微调：遵循指令的简洁答案、字符级推理、基于可靠来源的事实问答以及逻辑推理。数据集可通过合成生成、现有基准、人工标注和网络抓取等方式组装，预计规模为50,000至150,000个示例。

创建时间：

2026-03-07