dannkoh/invaR1ant-benchmark
收藏Hugging Face2025-03-31 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/dannkoh/invaR1ant-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
InvaR1ant基准数据集是一个设计用来测试语言模型在不同输入尺寸上进行不变逻辑推理泛化能力的数据集。每个示例包含一个问题,其中包含不同输入尺寸N的多个约束示例,一个要预测约束的目标输入尺寸,以及针对目标尺寸的正确约束答案和难度等级的元数据。
The InvaR1ant benchmark is a dataset designed to test the ability of language models to generalise invariant logical reasoning across different input sizes. Each example includes a question with multiple constraint examples for different input sizes N, a target input size to predict constraints for, an answer with the correct constraint for the target size, and metadata indicating the difficulty tier.
提供机构:
dannkoh



