CELEP1

Hugging Face2025-09-06 更新2025-09-07 收录

下载链接：

https://huggingface.co/datasets/yasinjan/CELEP1

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含多个选择题的文学考试数据集，来源于2011年和2012年的大学入学国家统一考试题目。数据集保留了原始内容的不变性，仅进行了结构上的改变。题目和答案均来自于书籍《 نمونە سؤال ئۈلگىلىك ئەسەر (ISBN:978 7 5466 0917 1)》。数据集共有训练集一个部分，包含24个样本，总大小为121983字节。

创建时间：

2025-08-30

原始信息汇总

CELEP1 数据集概述

数据集基本信息

名称：College Entrance Literature Exam Part1
许可证：Apache-2.0
语言：维吾尔语（ug）
数据量：24 个样本
大小：下载大小 57,450 字节，数据集大小 121,983 字节
类别：文本生成
规模分类：n<1K

数据来源

数据来源于《2011年普通高等学校招生全国统一考试试题-语文》和《2012年普通高等学校招生全国统一考试试题-语文》的选择题部分，内容保持原样未修改，仅进行结构更改。问题和答案均取自书籍《نەمۇنە سۇئال ئۈلگىلىك ئەسەر》（ISBN：978 7 5466 0917 1）。

数据结构

特征

instruction：字符串类型
grade：字符串类型
question：字符串类型
answer：字符串类型
passage：字符串类型
A：字符串类型
B：字符串类型
C：字符串类型
D：字符串类型
E：字符串类型

数据划分

train：24 个样本，121,983 字节

相关资源

文本提取工具：https://github.com/datalab-to/marker
文本提取过程：https://colab.research.google.com/drive/1VjkchSO_MgaLz-TDpXmXXSEUq9e5Fli8?usp=sharing

搜集汇总

数据集介绍

构建方式

在文学教育评估领域，CELEP1数据集源自2011年与2012年普通高校招生全国统一考试语文文学部分的单项选择题。构建过程中严格遵循内容零修改原则，仅对原始试题进行结构性重组。所有题目与答案均从ISBN为9787546609171的官方教材《نەمۇنە سۇئال ئۈلگىلىك ئەسەر》中提取，通过自动化文本提取工具marker完成数字化转换，确保了学术资源的原始性与完整性。

特点

该数据集以维吾尔语（ug）呈现，包含指令、年级、问题、答案及选项等结构化特征，全面覆盖文学理解与批判性思维维度。其核心价值在于提供标准化考试场景下的高质量多选择题库，规模虽精炼但具备典型性，24个训练样本均经过考试机构权威认证，为自然语言处理任务提供了真实的教育评估场景数据。

使用方法

研究者可通过HuggingFace平台直接加载数据集，适用于文本生成与语言理解任务的训练与评估。典型应用包括构建教育领域问答系统、语言模型性能基准测试，以及跨语言文学理解研究。数据以Apache-2.0协议开放，支持学术与商业用途，配套的Colab笔记本提供了完整的文本提取流程复现方案。

背景与挑战

背景概述

CELEP1数据集源于高等教育入学考试文献学科的专业需求，由Datalab团队基于2011-2012年土耳其语文学统考真题构建。该数据集忠实保留了原始试题的学术结构与文化语境，专注于维吾尔语文学理解与多选问答任务的交叉研究。通过严格遵循内容零修改原则，仅对数据结构进行标准化重组，为少数民族语言教育评估提供了珍贵的基准数据。

当前挑战

构建过程面临古籍数字化技术挑战，需通过专业工具从ISBN出版物中精确提取维吾尔语特殊字符与诗歌格式。领域核心挑战在于解决低资源语言文学理解的机器评估问题，包括古典文学隐喻解析、文化背景推理以及多选项语义相似度判别。数据集规模受限也反映了少数民族语言教育数据稀缺的现状。

常用场景

经典使用场景

在自然语言处理领域，CELEP1数据集为维吾尔语教育评估提供了重要资源。该数据集主要应用于多选题问答系统的开发与测试，通过结合文学考试题目，为研究者提供了标准化的评估基准。其典型使用场景包括训练语言模型理解复杂指令、处理多选项问题以及生成准确答案，尤其在低资源语言处理中展现出独特价值。

衍生相关工作

基于CELEP1数据集，研究者已开展多项经典工作。其中包括开发端到端的维吾尔语问答模型、设计跨语言知识迁移框架，以及构建面向低资源语言的预训练技术。这些工作不仅推动了维吾尔语NLP技术的发展，更为其他少数民族语言处理研究提供了可复用的方法论和实践经验。

数据集最近研究