five

Handwritten arithmetic with INTegers (HINT)

收藏
arXiv2023-04-18 更新2024-06-21 收录
下载链接:
https://liqing-ustc.github.io/HINT
下载链接
链接失效反馈
官方服务:
资源简介:
HINT数据集由国家关键人工智能实验室创建,旨在通过手写算术表达式来评估机器在感知、语法和语义三个层次上的泛化学习能力。数据集包含100万条手写算术表达式,这些表达式涉及从简单到复杂的多种算术操作。创建过程中,数据集从CROHME中提取手写图像,并根据操作符优先级随机生成表达式。HINT数据集主要用于研究机器学习模型在处理复杂算术问题时的泛化能力,特别是在处理未见过的表达式和复杂语义推理时的表现。

The HINT dataset was created by the National Key Laboratory of Artificial Intelligence, aiming to evaluate the generalized learning ability of machines at three levels: perception, syntax and semantics via handwritten arithmetic expressions. The dataset contains 1 million handwritten arithmetic expressions covering various arithmetic operations from simple to complex. During its creation, handwritten images were extracted from the CROHME dataset, and expressions were randomly generated based on operator precedence. The HINT dataset is primarily used to research the generalization capability of machine learning models when handling complex arithmetic problems, especially their performance when dealing with unseen expressions and complex semantic reasoning.
提供机构:
国家关键人工智能实验室,BIGAI
创建时间:
2021-03-02
搜集汇总
数据集介绍
main_image_url
构建方式
在算术推理领域,手写整数算术(HINT)数据集的构建旨在系统评估模型在感知、语法和语义三个层面的泛化能力。该数据集从CROHME手写数学符号库中提取了数字0至9、运算符(+、-、×、÷)及括号的手写图像,经过清洗去重后,通过随机采样前缀表达式并转换为中缀形式,结合运算符优先级添加必要括号,生成仅包含单位数字的算术表达式。随后,利用求解器计算表达式结果,并随机选取符号对应的手写图像拼接成完整手写表达式作为输入,仅保留最终结果作为弱监督信号,所有中间过程均被隐去。为全面测试系统泛化,训练集限制运算符最多10个且中间值不超过100,而测试集则精心设计了五个子集,分别针对感知泛化、语法与语义的内插及外推等不同模式进行评估。
特点
HINT数据集的核心特点在于其全面而精细地涵盖了概念学习的三个层次:感知、语法与语义。感知层面涉及从具有显著视觉变异的手写图像中识别符号,这要求模型处理真实书写中的多样性;语法层面则通过算术表达式的结构组合,特别是括号带来的长程依赖和深层树结构,挑战模型对复杂句法关系的理解;语义层面赋予算术符号功能意义,如运算符的数学计算,其复杂性远超以往数据集的简单映射任务。此外,数据集通过弱监督设置迫使模型同时掌握三个层面的知识,并引入少样本学习分割,以评估模型快速学习新概念并将其推广至复杂场景的能力。这种多层次、系统化的设计使HINT成为评估模型系统泛化能力的严谨基准。
使用方法
HINT数据集的使用方法主要围绕序列到序列(seq2seq)框架展开,将手写算术表达式作为输入,预测其整数结果。具体而言,输入的手写表达式首先通过高度为32像素的滑动窗口进行分割,形成图像序列,每个图像由ResNet-18编码为特征向量。随后,编码后的序列输入到编码器-解码器架构中,如循环神经网络(RNN)、Transformer或其变体,解码器输出数字序列作为最终结果。在评估阶段,模型需在五个测试子集上分别测试感知泛化、语法与语义的内插及外推能力,并以准确率作为核心指标。此外,少样本学习分割允许对预训练模型进行微调,仅使用少量包含新概念的样本,测试其快速适应和泛化能力。该数据集还可用于探索模型规模与数据量扩展对系统泛化的影响,为研究系统泛化提供实证基础。
背景与挑战
背景概述
手写整数算术(HINT)数据集由北京大学、加州大学洛杉矶分校及北京通用人工智能研究院的研究团队于2023年提出,旨在系统评估机器学习模型在感知、语法和语义三个层面的系统性泛化能力。该数据集以手写算术表达式为核心,要求模型从图像中识别符号、理解表达式结构并执行算术推理,从而模拟人类概念学习的多层次过程。HINT的构建源于对人类算术能力的深入观察,其设计不仅填补了现有基准在全面系统性泛化评估上的空白,还为推动人工智能在组合泛化领域的研究提供了重要工具。
当前挑战
HINT数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域问题上,该数据集旨在解决手写算术表达式的端到端推理任务,其核心挑战在于模型需同时处理感知层面的手写图像变异、语法层面的长距离依赖结构以及语义层面的复杂算术运算,这对现有序列到序列模型的系统性泛化能力提出了严峻考验。在构建过程中,挑战包括从真实手写数据中提取并清理符号图像以确保视觉多样性,设计严谨的五重测试集以分离不同层面的泛化模式,以及平衡表达式的长度与数值分布以避免训练偏差。这些挑战共同凸显了HINT在推动模型超越简单插值、实现深层推理泛化方面的重要价值。
常用场景
经典使用场景
在认知科学与人工智能交叉领域,手写算术整数(HINT)数据集被设计为一个系统性泛化的基准测试工具,其核心应用场景在于评估机器学习模型在感知、句法和语义三个层次上的概念学习能力。该数据集通过手写算术表达式图像作为输入,要求模型在弱监督条件下预测表达式结果,从而模拟人类从原始信号中提取结构化知识并执行推理的认知过程。这一设置使得HINT成为检验模型是否能够实现跨层次系统性组合泛化的理想平台,尤其适用于探索模型在长距离句法依赖和复杂语义操作上的局限性。
实际应用
在实际应用层面,HINT数据集的能力评估框架可延伸至教育技术、文档数字化和智能计算系统等领域。例如,在手写数学公式识别系统中,模型需同时处理视觉变异、结构解析和算术推理,HINT的测试机制能为这类系统提供鲁棒性验证标准。此外,该数据集对少样本学习场景的模拟,为开发能够快速适应新符号或运算规则的适应性人工智能工具提供了参考,如在定制化数学辅导或跨语言符号推理应用中实现高效知识迁移。
衍生相关工作
HINT数据集启发了多项针对系统性泛化的后续研究,尤其是在改进Transformer架构和探索神经符号融合方法方面。例如,基于相对位置编码的通用Transformer变体在HINT上的实验,推动了长距离依赖建模的技术探索;而链式思维提示在GPT-3中的应用,则促进了零样本推理策略在复杂语义任务中的发展。同时,该数据集与SCAN、CLEVR等早期基准的对比分析,催生了更全面的评估体系设计,为跨模态概念学习研究提供了新的方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作