E-EVAL

Name: E-EVAL
Creator: 中国科学院深圳先进技术研究院
Published: 2024-01-29 15:34:37
License: 暂无描述

arXiv2024-01-29 更新2024-06-21 收录

下载链接：

https://github.com/AI-EDU-LAB/E-EVAL

下载链接

链接失效反馈

官方服务：

资源简介：

E-EVAL数据集由中国科学院深圳先进技术研究院创建，专注于中国K-12教育领域，包含4351个多选题，覆盖小学、初中和高中的23个科目。数据集内容丰富，包括语文、数学、英语等主要科目，旨在通过这些题目评估大型语言模型在教育领域的应用能力。创建过程中，数据来源于作业和小规模考试，确保数据的原创性和区域特色。E-EVAL数据集的应用领域主要集中在分析和提升大型语言模型在教育技术领域的性能，特别是在解决教育评估和辅助教学等问题上。

The E-EVAL dataset was developed by the Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences, focusing on China's K-12 education sector. It contains 4,351 multiple-choice questions covering 23 subjects for primary, junior high, and senior high school levels. The dataset includes a rich set of content, covering core disciplines such as Chinese, Mathematics, and English. Its core goal is to evaluate the application capabilities of large language models (LLMs) in the education field using these questions. During the creation process, the data was sourced from homework assignments and small-scale examinations, ensuring the originality and regional characteristics of the dataset. The main application scenarios of the E-EVAL dataset focus on analyzing and improving the performance of large language models in the field of educational technology, particularly in addressing issues such as educational assessment and assisted teaching.

提供机构：

中国科学院深圳先进技术研究院

创建时间：

2024-01-29

搜集汇总

数据集介绍

构建方式

在构建E-EVAL数据集的过程中，研究团队遵循了严谨的学术规范，以确保其作为首个专注于中国K-12教育领域的大语言模型评估基准的权威性。数据采集主要源自互联网上公开的区域性作业、练习题及模拟考试，这些资料通常由学校或教育机构提供，旨在帮助学生巩固知识，其流通范围有限，有效降低了数据污染的风险。团队精心筛选了涵盖小学、初中、高中三个学段共23门学科的4351道单项选择题，并依据学科性质划分为文科与理科两大类。数据处理环节尤为关键，对于文科题目采用脚本自动解析PDF与Word文档，而涉及复杂公式的理科题目则需人工解析并转换为标准LaTeX格式。为确保数据质量，团队进行了三轮人工校验，包括去重、公式正确性核查以及答案准确性确认，并刻意调整了选项顺序，使正确答案在A、B、C、D四个选项中的分布更为均衡，以减轻模型可能存在的选项偏见。最终，数据集被划分为开发集、验证集和测试集，为后续的模型评估提供了结构化的基础。

特点

E-EVAL数据集展现出若干鲜明的特征，使其在众多评估基准中独树一帜。其首要特点是高度的领域专注性与全面性，它并非泛化的知识测试，而是精准锚定中国K-12教育体系，覆盖了从语文、英语、政治等人文社科，到数学、物理、化学等自然科学在内的全部核心学科，实现了对教育全阶段的系统性评估。其次，数据集具有显著的真实性与地域代表性，题目主要来源于日常教学中的作业与小规模考试，而非全国性统考题目，这更好地反映了实际教学情境与地域性学术要求，增强了评估结果的生态效度。再者，数据构建过程体现了对数据隐私与原创性的审慎考量，通过避免使用广泛流传的公开考题，并采用非纯文本的结构化文档作为源材料，有效降低了数据泄露与预训练污染的可能性。这些特征共同使得E-EVAL成为一个能够深入、准确反映大语言模型在中国基础教育场景下知识与推理能力的可靠标尺。

使用方法

E-EVAL数据集的使用旨在系统评估大语言模型在中国K-12教育领域的综合能力。评估以单项选择题的答案准确率作为核心指标。研究设计了三种递进的提示策略以深入探究模型性能：零样本评估要求模型在没有任何示例的情况下直接作答，检验其固有知识储备；少样本仅答案评估则在问题前提供五个同类题目的示例（不含解析），旨在考察模型通过少量样本进行任务适应的能力；少样本思维链评估则在少样本基础上，进一步为示例提供逐步推理过程，并提示模型“让我们一步一步思考”，以激发并评估其结构化推理能力。为确保评估的公正性与防止数据泄露，仅公开开发集与验证集的答案，测试集答案保密，研究者需将模型对测试集的预测结果提交至指定平台以获取最终准确率。平台设有公开排行榜，便于比较不同模型的性能。这种多层次、多策略的评估框架，能够全面剖析模型在记忆、理解、应用乃至复杂推理等多个认知维度上的表现。

背景与挑战

背景概述

随着大语言模型在自然语言处理领域的迅猛发展，其在教育领域的应用日益广泛，尤其是在中国K-12教育场景中。然而，针对该领域的大语言模型评估基准长期缺失，导致模型能力难以精准衡量。为此，中国科学院深圳先进技术研究院等机构的研究团队于2024年推出了E-EVAL数据集，这是首个专注于中国K-12教育的综合性评估基准。该数据集涵盖了小学、初中和高中三个学段，包含语文、数学、英语、物理、化学等23门学科的4351道选择题，旨在系统评估大语言模型在学科知识掌握与推理能力方面的表现。E-EVAL的构建不仅填补了该领域基准数据的空白，也为教育智能化的发展提供了重要的评估工具。

当前挑战

E-EVAL数据集致力于解决大语言模型在中国K-12教育领域中的能力评估问题，其核心挑战在于模型对复杂学科知识的掌握不足。例如，在数学等理科科目中，模型表现普遍较差，反映出逻辑推理与定量分析能力的局限。此外，模型在小学阶段的简单问题上表现反而不如初中阶段，揭示出高阶知识掌握未必伴随低阶知识自动习得的现象。在数据构建过程中，团队面临多重挑战：一是数据来源需避免国家级考试题目以降低污染风险，转而依赖区域性作业与模拟试题，增加了收集与处理的复杂性；二是科学类题目涉及复杂公式与符号，需人工解析并转换为标准格式，确保数据完整性与准确性；三是需通过多轮人工校验平衡选项分布，以减少模型偏差。这些挑战凸显了教育领域评估基准构建的专业性与精细度要求。

常用场景

经典使用场景

在中文K-12教育领域，E-EVAL数据集作为首个综合性评估基准，其经典使用场景聚焦于系统性地评测大型语言模型在基础教育阶段的知识掌握与推理能力。该数据集通过覆盖小学、初中和高中三个学段，横跨语文、数学、英语、物理、化学、生物、政治、历史、地理等23门学科，共计4351道选择题，构建了一个多维度、多层次的教育评估体系。研究人员通常利用E-EVAL对各类中英文主导的大型语言模型进行零样本、少样本及思维链提示下的性能测试，从而精准刻画模型在学科知识理解、逻辑推理以及跨学段适应性方面的表现，为模型在教育场景的优化提供实证依据。

解决学术问题

E-EVAL数据集有效解决了当前大型语言模型在中文基础教育领域缺乏标准化评估工具的学术空白。其核心贡献在于构建了一个全面、细粒度的评测框架，能够系统性地探究模型在K-12各学段、文理学科中的知识边界与能力局限。该数据集揭示了诸如模型在理科（尤其是数学）上表现普遍弱于文科、部分模型在小学阶段简单题目上反而不及初中阶段等反直觉现象，挑战了“模型掌握高阶知识即自动掌握低阶知识”的假设。这些发现深化了学界对模型知识结构、推理机制与教育内容适配性的理解，推动了面向教育垂直领域的大模型评估方法论发展。

衍生相关工作

E-EVAL的发布激发了中文教育评估基准的相关研究，衍生出一系列聚焦垂直领域的评测工作。例如，其构建方法论启发了针对更细分学段（如学前教育）或特定学科（如编程教育）的专项评估数据集开发。同时，基于E-EVAL揭示的模型在文理科表现差异、提示策略有效性等问题，后续研究进一步探索了结合教育心理学理论的模型微调方法、跨学科知识迁移机制以及适用于教育场景的新型推理架构。这些工作共同推动了大型语言模型在教育领域的评估体系完善与模型能力进化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集