five

qwen-blindspots

收藏
Hugging Face2026-03-13 更新2026-03-16 收录
下载链接:
https://huggingface.co/datasets/evanabose/qwen-blindspots
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含Qwen3-4B模型产生错误或弱响应的提示。每条数据包含输入提示、预期输出、模型输出和类别。提示设计用于测试多种推理领域,包括算术、字符计数、逻辑推理、空间推理、事实知识、字谜、多语言、时间推理、模式识别和技巧推理。测试揭示了模型的五个明显失败类别:字符计数、逻辑推理与错误前提、事实知识(地理)、字谜识别和幻觉。为修复这些盲点,建议在以下方面进行微调:遵循指令的简洁答案、字符级推理、基于可靠来源的事实问答以及逻辑推理。数据集可通过合成生成、现有基准、人工标注和网络抓取等方式组装,预计规模为50,000至150,000个示例。
创建时间:
2026-03-07
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作