CONIC10K

Name: CONIC10K
Creator: 上海科技大学信息科学与技术学院
Published: 2023-11-09 10:58:17
License: 暂无描述

arXiv2023-11-09 更新2024-06-21 收录

下载链接：

https://github.com/whyNLP/Conic10K

下载链接

链接失效反馈

官方服务：

资源简介：

CONIC10K是一个针对中国高中教育中圆锥曲线知识领域的数学问题理解和推理数据集。该数据集包含10,861个精心标注的问题，每个问题都有正式的数学表达、推理步骤和最终解答。数据集专注于圆锥曲线，使得分析模型在特定知识领域的能力和推理能力成为可能。CONIC10K旨在评估和分析人工智能在数学理解和推理方面的能力，特别是在复杂推理任务上的表现。

CONIC10K is a mathematical problem understanding and reasoning dataset focused on the conic section knowledge domain in Chinese high school education. This dataset contains 10,861 carefully annotated problems, each with formal mathematical expressions, reasoning steps, and final solutions. By targeting the conic section domain, this dataset enables the analysis of model capabilities and reasoning performance within a specific knowledge area. CONIC10K is designed to evaluate and analyze the abilities of artificial intelligence in mathematical understanding and reasoning, especially its performance on complex reasoning tasks.

提供机构：

上海科技大学信息科学与技术学院

创建时间：

2023-11-09

搜集汇总

数据集介绍

构建方式

在数学理解与推理领域，构建高质量数据集对于评估人工智能模型的深层能力至关重要。CONIC10K数据集的构建始于从两个专注于中国高中教育的网站收集约20,000道圆锥曲线相关的开放式问题图像，随后利用Mathpix工具将图像转换为文本格式。为确保数据集的纯粹性与专业性，研究团队严格过滤了涉及数列、立体几何等其他知识领域的问题，并通过模糊匹配去除重复内容，初步将数据规模缩减至约14,000道。在标注阶段，团队实施了严格的质量控制流程：首先建立包含数百个样本的小型数据集并制定标注指南，同时开发基于规则的AI助手以辅助完成形式化表示；随后通过性能筛选出最佳标注员，要求每道题目由两名标注员独立完成形式化表示、文本跨度选择及错误修正，并由第三方验证员使用自动化工具进行比对验证。整个标注过程历时四个月，最终通过五折交叉验证训练语言模型进一步修正标注错误，形成包含10,861道题目的精炼数据集，并按7.5:1:2的比例划分为训练集、验证集和测试集。

使用方法

该数据集主要支持语义解析和数学问答两大评估任务，旨在分别检验模型的形式化理解能力与综合推理能力。在语义解析任务中，模型需要将自然语言描述的数学问题转换为精确的形式化表示，这要求模型深入理解数学概念的结构化表达；而在数学问答任务中，模型需直接生成问题的最终答案，从而综合评估其数学理解与多步推理能力。研究实践中，可采用全参数微调或参数高效微调方法对预训练语言模型进行适配，对于大规模模型也可采用零样本思维链提示进行推理评估。评估时需注意，数学问答任务的答案正确性判断涉及复杂的数学等价性验证，因此需要依赖人工评估确保准确性。数据集的标准划分方案为模型训练与性能比较提供了可靠基准，其专题集中的特性使得研究者能够针对特定数学领域的推理瓶颈进行深入分析。

背景与挑战

背景概述

数学理解与推理能力是评估人工智能核心智能的关键维度，然而现有基准数据集往往存在推理步骤过少或主题覆盖过广导致单主题数据稀疏的局限，难以精准剖析模型在特定知识领域内的推理行为。为此，上海科技大学、中国科学技术大学及上海交通大学的研究团队于2023年联合推出了CONIC10K数据集，聚焦于中国高中数学教育中的圆锥曲线专题。该数据集包含10,861道经过精细标注的题目，每道题目均提供自然语言描述、形式化表示、推理步骤与最终答案，其核心研究目标在于构建一个知识范围封闭但推理深度多样的评估基准，从而分离模型的知识掌握程度与推理能力表现，为深入分析大语言模型的数学认知机制提供结构化数据支撑。

当前挑战

CONIC10K旨在解决数学问题求解中复杂多步推理的评估挑战，其核心难题在于如何设计能够精确衡量模型从语义理解到逻辑推演全流程能力的任务。现有大语言模型在数据集上的实验表明，即便如GPT-4这类先进模型，在零样本思维链提示下的数学问答准确率也仅为15.5%，与人类专家57.5%的表现存在显著差距，凸显出模型在长链条逻辑演算、数学捷径发现以及专业概念知识掌握方面的系统性缺陷。在数据集构建过程中，团队面临高质量形式化标注的工程挑战，需设计兼顾无歧义性与自然语言亲和力的表示体系，并通过多轮人工校验、规则辅助标注与跨模型验证等质量控制手段，确保万余道题目在逻辑表达与解题步骤上的精确性与一致性。

常用场景

经典使用场景

在数学推理与自然语言理解的研究领域，CONIC10K数据集常被用作评估大型语言模型在封闭知识域内复杂推理能力的基准工具。该数据集聚焦于圆锥曲线这一高中数学主题，通过提供超过一万道具有不同推理深度的中文题目，使得研究者能够精确分析模型在固定知识背景下的推理表现。其经典使用场景包括语义解析任务，要求模型将自然语言描述的数学问题转化为形式化表示，以及数学问答任务，直接测试模型生成正确答案的能力。这些任务共同揭示了模型在理解数学概念和执行多步推理方面的局限性。

解决学术问题

CONIC10K数据集主要解决了现有数学推理数据集中存在的两个关键问题：推理步骤过少导致模型依赖浅层启发式策略，以及主题过于宽泛使得难以区分模型失败是由于知识缺失还是推理能力不足。通过将知识范围限定在圆锥曲线这一单一领域，该数据集确保了所有题目共享相同的背景知识，从而能够独立评估模型的推理能力。其实验结果表明，即使是最先进的大型语言模型如GPT-4，在复杂数学推理任务上的表现也远低于人类专家水平，这凸显了当前人工智能在深层逻辑推理方面的不足，为后续研究提供了明确的改进方向。

实际应用

在实际应用层面，CONIC10K数据集为智能教育系统的开发提供了重要支撑。基于该数据集训练的模型可以用于构建自适应数学辅导平台，能够针对学生的薄弱环节提供个性化题目和分步解析。此外，在自动解题系统的研发中，该数据集的高质量形式化标注有助于提升系统对复杂数学问题的理解精度。数据集还可用于评估教育机器人的数学对话能力，推动人机交互在学术辅导场景中的深入应用。这些应用不仅提升了教育资源的可及性，也为人工智能在专业领域的落地提供了技术验证。

数据集最近研究