qwen-blindspots
收藏Hugging Face2026-03-13 更新2026-03-16 收录
下载链接:
https://huggingface.co/datasets/evanabose/qwen-blindspots
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含Qwen3-4B模型产生错误或弱响应的提示。每条数据包含输入提示、预期输出、模型输出和类别。提示设计用于测试多种推理领域,包括算术、字符计数、逻辑推理、空间推理、事实知识、字谜、多语言、时间推理、模式识别和技巧推理。测试揭示了模型的五个明显失败类别:字符计数、逻辑推理与错误前提、事实知识(地理)、字谜识别和幻觉。为修复这些盲点,建议在以下方面进行微调:遵循指令的简洁答案、字符级推理、基于可靠来源的事实问答以及逻辑推理。数据集可通过合成生成、现有基准、人工标注和网络抓取等方式组装,预计规模为50,000至150,000个示例。
创建时间:
2026-03-07



