ARC, MiniARC, 1D-ARC, SCAN, MiniSCAN, COGS, SALT, List Functions, RAVEN
收藏github2025-04-14 更新2025-04-15 收录
下载链接:
https://github.com/HKUST-KnowComp/CoT-ICL-Eval
下载链接
链接失效反馈官方服务:
资源简介:
这些数据集包括符号、文本和数值模态,用于评估大型语言模型在上下文学习中的表现。
These datasets encompass symbolic, textual, and numerical modalities, and are employed to evaluate the performance of large language models in in-context learning.
创建时间:
2025-04-07
原始信息汇总
数据集概述
数据集来源
- 官方GitHub仓库:The Curse of CoT
- 相关论文:The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning
数据集列表
| 数据集名称 | 来源论文 | 任务模态 | 大小 |
|---|---|---|---|
| ARC | On the Measure of Intelligence | 符号推理 | 835 |
| MiniARC | Playgrounds for Abstraction and Reasoning | 符号推理 | 149 |
| 1D-ARC | LLMs and the Abstraction and Reasoning Corpus: Successes, Failures, and the Importance of Object-based Representations | 符号推理 | 901 |
| SCAN | Generalization without Systematicity: On the Compositional Skills of Sequence-to-Sequence Recurrent Networks | 文本 | 1000 |
| MiniSCAN | Learning Compositional Rules via Neural Program Synthesis | 文本 | 1000 |
| COGS | COGS: A Compositional Generalization Challenge Based on Semantic Interpretation | 文本 | 1000 |
| SALT | LogiDynamics: Unraveling the Dynamics of Logical Inference in Large Language Model Reasoning | 文本 | 1200 |
| List Functions | The child as hacker: building more human-like models of learning | 数值 | 1250 |
| RAVEN | In-Context Analogical Reasoning with Pre-Trained Language Models | 数值/符号推理 | 1259 |
主要结果
结果基于16个大型语言模型的平均值
| 数据集 | 直接回答 | CoT | CoT tokens | React | React tokens | ToT | ToT tokens |
|---|---|---|---|---|---|---|---|
| ARC | 10.01 | 7.50 | 914.04 | 6.34 | 955.76 | 6.99 | 1376.96 |
| MiniARC | 17.11 | 10.36 | 419.75 | 8.69 | 663.37 | 8.85 | 233.47 |
| 1DARC | 41.30 | 34.93 | 359.57 | 28.51 | 435.97 | 27.88 | 594.70 |
| SCAN | 62.79 | 60.04 | 134.51 | 57.35 | 270.16 | 51.31 | 455.39 |
| MiniSCAN | 20.85 | 17.32 | 239.99 | 15.72 | 330.14 | 15.42 | 554.62 |
| COGS | 19.73 | 14.88 | 244.11 | 12.99 | 272.18 | 9.24 | 484.92 |
| SALT | 37.72 | 34.15 | 175.99 | 31.06 | 316.41 | 27.25 | 492.73 |
| List Function | 44.31 | 38.29 | 305.49 | 34.84 | 310.73 | 31.25 | 486.49 |
| RAVEN | 16.94 | 7.37 | 434.75 | 3.09 | 533.09 | 5.80 | 737.64 |
| 平均 | 30.08 | 24.98 | 358.69 | 22.07 | 454.20 | 20.44 | 601.88 |
引用信息
bibtex @misc{zheng2025cursecotlimitationschainofthought, title={The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning}, author={Tianshi Zheng and Yixiang Chen and Chengxi Li and Chunyang Li and Qing Zong and Haochen Shi and Baixuan Xu and Yangqiu Song and Ginny Y. Wong and Simon See}, year={2025}, eprint={2504.05081}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.05081}, }
搜集汇总
数据集介绍

构建方式
在认知科学与人工智能交叉领域,该系列数据集通过严谨的实验设计构建而成。ARC及其衍生版本(MiniARC、1D-ARC)基于抽象推理任务,采用符号化表征方式构建;SCAN系列数据集通过自然语言指令与动作序列的映射关系建立文本模态基准;COGS和SALT则聚焦语义解释与逻辑推理的复合泛化能力,采用上下文学习框架生成数据;数值推理数据集如List Functions和RAVEN,通过编程式问题与类比推理任务构建多维度评估体系。
特点
该数据集群呈现显著的模态多样性与任务特异性。符号化数据集(ARC系列)强调抽象模式识别能力,文本模态数据集(SCAN、COGS)检验组合泛化性能,数值推理任务(List Functions)则评估离散数学建模能力。特别值得注意的是RAVEN数据集,其融合符号与数值双模态,为类比推理研究提供独特测试平台。各数据集规模经过精密设计,样本量在149至1259之间,确保评估效度与计算效率的平衡。
使用方法
研究者可通过标准化评估协议开展多维度测试。对于符号推理任务,建议采用直接回答(Direct Answering)作为基线方法;文本模态数据集推荐结合React推理框架进行细粒度分析;数值类任务则适宜采用思维树(ToT)等结构化推理策略。所有数据集均提供原始论文描述的规范分割方案,使用时需严格遵循训练-验证-测试集的划分标准,以确保结果可比性。评估指标应优先考虑论文报告的准确率与推理步长等核心参数。
背景与挑战
背景概述
ARC、MiniARC、1D-ARC、SCAN、MiniSCAN、COGS、SALT、List Functions和RAVEN等数据集是近年来在人工智能领域广泛使用的基准测试集,涵盖了符号推理、文本理解和数值计算等多种任务模态。这些数据集由多个研究团队在不同时期创建,例如ARC数据集源自2019年François Chollet的论文《On the Measure of Intelligence》,旨在评估模型的抽象推理能力;SCAN数据集则由Lake等人于2017年提出,专注于测试模型的组合泛化能力。这些数据集不仅在学术界引发了广泛讨论,也为大语言模型的上下文学习能力提供了重要的评估标准。
当前挑战
这些数据集在应用过程中面临多重挑战。从领域问题来看,符号推理任务(如ARC和RAVEN)要求模型具备人类般的抽象思维,而现有模型在解决此类问题时仍表现不佳;文本理解任务(如SCAN和COGS)则暴露出模型在组合泛化和系统性推理上的局限性。在数据集构建方面,如何设计既具有足够复杂性又能清晰反映模型能力的任务是一大难题。例如,MiniARC和MiniSCAN虽然规模较小,但需要精确控制任务的难度梯度;而SALT和List Functions则需平衡逻辑严谨性与数据多样性,这对标注质量和任务设计提出了极高要求。
常用场景
经典使用场景
在人工智能领域,ARC、MiniARC和1D-ARC等数据集被广泛用于评估模型在抽象推理任务中的表现。这些数据集通过符号化的任务设计,要求模型在缺乏明确训练数据的情况下进行推理,从而测试其泛化能力和逻辑推理水平。经典使用场景包括模型在未知任务上的零样本学习能力评估,以及不同推理方法(如直接回答、思维链等)的效果对比。
实际应用
在实际应用中,这些数据集推动了教育技术和智能辅助工具的发展。RAVEN数据集通过数值和符号结合的类比推理任务,为开发更智能的解题辅助系统提供了测试平台。List Functions数据集则模拟了人类学习过程中的数值推理,可用于设计自适应学习系统。这些数据集的应用显著提升了AI系统在复杂任务中的实用性和可靠性。
衍生相关工作
围绕这些数据集,学术界衍生了一系列重要研究。例如,《LLMs and the Abstraction and Reasoning Corpus》探讨了大语言模型在ARC任务中的表现,《Generalization without Systematicity》分析了SCAN任务中序列模型的局限性。这些工作不仅深化了对模型推理机制的理解,还催生了新的评估框架和模型改进方向,如神经程序合成和动态逻辑推理方法。
以上内容由遇见数据集搜集并总结生成



