kholle

Hugging Face2025-08-21 更新2025-08-22 收录

下载链接：

https://huggingface.co/datasets/kurakurai/kholle

下载链接

链接失效反馈

官方服务：

资源简介：

Kholle是一个法语基准测试，专为小型语言模型设计，用于评估它们在科学领域的学术和学校级别知识。该测试包括来自法国高中和预科课程的课程风格问题和练习，涵盖数学、物理与化学以及生物学三个主要领域。

创建时间：

2025-08-20

搜集汇总

数据集介绍

构建方式

Kholle数据集的构建严格遵循法国高中及预科班官方课程大纲，采用人工精选方式确保学术严谨性。数学题目主要来源于权威教育平台Bibmath，涵盖数学、物理化学及生物三大科学领域，通过分层抽样形成包含175道题目的核心语料库，其中高中与预科班题目比例经过精准配置以反映实际教学梯度。

特点

该数据集突出表现为多层级学术评估体系，包含高中（bac）与预科班（cpge）双轨制难度划分，覆盖数学（100题）、物理化学（50题）和生物（25题）三大核心学科。每个样本均配备标准答案与解析文本，其简洁的课程式问答结构特别适配小型语言模型在科学知识推理领域的精准评估需求。

使用方法

研究者可通过HuggingFace平台直接加载combined、cpge或bac三个标准化数据切片，依托配套的Luth评估框架进行模型性能测试。建议采用零样本或小样本学习范式验证模型对科学概念的掌握程度，其模块化设计支持跨学科或跨难度级别的针对性性能分析。

背景与挑战

背景概述

Kholle数据集由Kurakura AI团队于2025年构建，专为评估小型语言模型在科学领域的学术能力而设计。该数据集基于法国高中及预科班官方课程体系，涵盖数学、物理化学与生物科学三大核心学科，共包含175道课程式问题与小型习题。其构建旨在填补小规模模型在科学教育评估领域的空白，为教育科技与自然语言处理的交叉研究提供标准化评估工具，对推动教育资源智能化发展具有显著意义。

当前挑战

该数据集致力于解决小型语言模型在科学学科知识评估中的准确性挑战，包括模型对多学科术语的理解、逻辑推理能力以及课程知识的精准再现。构建过程中面临的核心挑战在于课程知识的权威性筛选与标准化呈现，需从官方教材与Bibmath等学术平台手动提取并验证题目，同时平衡高中与预科班不同难度层级的题目分布，确保评估体系兼具学术严谨性与教育适用性。

常用场景

经典使用场景

在自然语言处理领域，Kholle数据集作为专门针对小型语言模型的科学知识评估基准，其经典使用场景聚焦于模型在数学、物理化学及生物学科的知识掌握度测试。研究者通过该数据集构建标准化评估流程，系统检验模型对法国高中及预科课程内容的解析能力与推理精度，为模型能力边界划定提供关键参照。

实际应用

实际应用中，Kholle数据集被广泛集成于智能教育系统的核心评估模块，用于测评在线辅导机器人的学科知识覆盖度。教育科技企业依托该数据集开展自适应学习系统的能力校准，确保其输出的科学内容符合法国国民教育体系标准，同时为个性化学习路径规划提供底层能力验证支撑。

衍生相关工作

基于Kholle数据集衍生的经典工作包括Luth评估框架的深度开发，该框架实现了对小规模模型多维度能力指标的自动化提取。后续研究进一步拓展了跨语言学科知识迁移范式，催生了面向欧洲多国教育体系的评估基准构建，推动多语言小模型在STEM教育领域的应用标准建立。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集