CEP-7K

github2025-04-30 更新2025-05-07 收录

下载链接：

https://github.com/Kexin-Technology/CEP-7K

下载链接

链接失效反馈

官方服务：

资源简介：

ICDAR 2025竞赛数据集，包含7,000个来自中国高考各科目的问答对，这些问题被分为10个类别。

The ICDAR 2025 competition dataset contains 7,000 question-answer pairs from various subjects of the Chinese Gaokao exam, categorized into 10 classes.

创建时间：

2025-04-30

原始信息汇总

CEP-7K数据集概述

数据集基本信息

数据集名称: CEP-7K
用途: ICDAR 2025竞赛数据集，用于理解中国高考试卷
数据量: 7,000个问答对

数据来源

源自历年中国高考试卷
涵盖多个学科

数据分类

问题分为10个类别

搜集汇总

数据集介绍

构建方式

CEP-7K数据集作为ICDAR 2025中文高考试卷理解竞赛的基准数据集，其构建过程体现了严谨的学术规范。研究团队从历年高考真题中系统性地筛选了涵盖多学科的试题，通过专家标注和多重校验流程，最终形成7,000个高质量的问答对。数据按照学科特性和题型特征被科学划分为10个类别，每个样本都经过教育专家的语义标注和难度分级，确保数据分布的合理性和教育价值。

特点

该数据集最显著的特征在于其真实的教育场景溯源性和多维分类体系。所有试题均来自具有权威性的高考真题库，完整保留了原题的文本格式和知识结构。十种类别的划分不仅包含传统文理学科区分，更创新性地融入了题型复杂度、认知层次等教育学维度。数据集中开放型问题与客观题型的平衡分布，为研究复杂文本理解和推理能力提供了理想样本空间。

使用方法

使用者可通过标准化的数据接口按需调用特定学科或难度层级的试题子集。每道题目均配备完整的元数据标识，包括标准答案、知识点标签及解题思路提示。建议研究者在模型训练时注意保持各学科样本的均衡使用，验证阶段可参考官方提供的交叉验证方案。对于教育应用开发，可结合附带的认知维度标签进行自适应学习系统的构建。

背景与挑战

背景概述

CEP-7K数据集诞生于2025年国际文档分析与识别大会（ICDAR）竞赛背景下，由专注于教育智能化的研究团队构建，旨在推动中文高考试卷理解的自动化进程。该数据集汇集了历年高考真题中的7000道题目及其标准答案，涵盖多学科内容并按10个认知维度分类，为自然语言处理与教育技术的交叉研究提供了标准化基准。其核心价值在于首次系统性地将中国教育评价体系中的高阶思维考查转化为可计算问题，对智能教育领域的算法创新具有里程碑意义。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，高考题目蕴含复杂的逻辑推理和学科知识融合，传统问答系统难以处理题目中隐含的解题路径和多模态信息；在构建过程中，需要克服学科术语标准化、题目意图标注一致性以及跨学科知识表示等难题。数据采集涉及敏感的教育考试内容，还需平衡版权要求与科研开放性之间的张力，这对数据集的可持续扩展提出了特殊要求。

常用场景

经典使用场景

在教育技术领域，CEP-7K数据集为研究中文高考试卷的自动理解与解答提供了丰富资源。该数据集涵盖了多学科的7000道题目，研究者可通过构建深度学习模型，探索题目分类、语义解析和自动答题等关键任务。其细分的10个类别为跨学科研究提供了结构化基准，尤其适合验证模型在复杂文本理解任务中的泛化能力。

解决学术问题

CEP-7K有效解决了教育智能化中的核心挑战——如何让机器理解具有高度专业性和逻辑性的考试题目。通过提供标准化的题目-答案对，该数据集支持了从知识表示到推理机制的多层次研究，显著推进了自然语言处理在垂直领域的应用深度。其学科多样性更为评估模型的跨领域迁移学习能力提供了理想测试平台。

衍生相关工作

CEP-7K的发布催生了多项教育AI领域的重要研究。基于该数据集的工作包括融合知识图谱的题目理解框架、基于注意力机制的跨学科答案生成模型，以及结合认知科学的解题路径预测方法。这些成果被广泛应用于智能辅导系统开发，部分模型已在国际计算语言学会议（COLING）等顶级会议发表。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集