five

dannkoh/invaR1ant-benchmark

收藏
Hugging Face2025-03-31 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/dannkoh/invaR1ant-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
InvaR1ant基准数据集是一个设计用来测试语言模型在不同输入尺寸上进行不变逻辑推理泛化能力的数据集。每个示例包含一个问题,其中包含不同输入尺寸N的多个约束示例,一个要预测约束的目标输入尺寸,以及针对目标尺寸的正确约束答案和难度等级的元数据。

The InvaR1ant benchmark is a dataset designed to test the ability of language models to generalise invariant logical reasoning across different input sizes. Each example includes a question with multiple constraint examples for different input sizes N, a target input size to predict constraints for, an answer with the correct constraint for the target size, and metadata indicating the difficulty tier.
提供机构:
dannkoh
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作