CELEP1
收藏Hugging Face2025-09-06 更新2025-09-07 收录
下载链接:
https://huggingface.co/datasets/yasinjan/CELEP1
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含多个选择题的文学考试数据集,来源于2011年和2012年的大学入学国家统一考试题目。数据集保留了原始内容的不变性,仅进行了结构上的改变。题目和答案均来自于书籍《 نمونە سؤال ئۈلگىلىك ئەسەر (ISBN:978 7 5466 0917 1)》。数据集共有训练集一个部分,包含24个样本,总大小为121983字节。
创建时间:
2025-08-30
原始信息汇总
CELEP1 数据集概述
数据集基本信息
- 名称:College Entrance Literature Exam Part1
- 许可证:Apache-2.0
- 语言:维吾尔语(ug)
- 数据量:24 个样本
- 大小:下载大小 57,450 字节,数据集大小 121,983 字节
- 类别:文本生成
- 规模分类:n<1K
数据来源
数据来源于《2011年普通高等学校招生全国统一考试试题-语文》和《2012年普通高等学校招生全国统一考试试题-语文》的选择题部分,内容保持原样未修改,仅进行结构更改。问题和答案均取自书籍《نەمۇنە سۇئال ئۈلگىلىك ئەسەر》(ISBN:978 7 5466 0917 1)。
数据结构
特征
- instruction:字符串类型
- grade:字符串类型
- question:字符串类型
- answer:字符串类型
- passage:字符串类型
- A:字符串类型
- B:字符串类型
- C:字符串类型
- D:字符串类型
- E:字符串类型
数据划分
- train:24 个样本,121,983 字节
相关资源
- 文本提取工具:https://github.com/datalab-to/marker
- 文本提取过程:https://colab.research.google.com/drive/1VjkchSO_MgaLz-TDpXmXXSEUq9e5Fli8?usp=sharing
搜集汇总
数据集介绍

构建方式
在文学教育评估领域,CELEP1数据集源自2011年与2012年普通高校招生全国统一考试语文文学部分的单项选择题。构建过程中严格遵循内容零修改原则,仅对原始试题进行结构性重组。所有题目与答案均从ISBN为9787546609171的官方教材《نەمۇنە سۇئال ئۈلگىلىك ئەسەر》中提取,通过自动化文本提取工具marker完成数字化转换,确保了学术资源的原始性与完整性。
特点
该数据集以维吾尔语(ug)呈现,包含指令、年级、问题、答案及选项等结构化特征,全面覆盖文学理解与批判性思维维度。其核心价值在于提供标准化考试场景下的高质量多选择题库,规模虽精炼但具备典型性,24个训练样本均经过考试机构权威认证,为自然语言处理任务提供了真实的教育评估场景数据。
使用方法
研究者可通过HuggingFace平台直接加载数据集,适用于文本生成与语言理解任务的训练与评估。典型应用包括构建教育领域问答系统、语言模型性能基准测试,以及跨语言文学理解研究。数据以Apache-2.0协议开放,支持学术与商业用途,配套的Colab笔记本提供了完整的文本提取流程复现方案。
背景与挑战
背景概述
CELEP1数据集源于高等教育入学考试文献学科的专业需求,由Datalab团队基于2011-2012年土耳其语文学统考真题构建。该数据集忠实保留了原始试题的学术结构与文化语境,专注于维吾尔语文学理解与多选问答任务的交叉研究。通过严格遵循内容零修改原则,仅对数据结构进行标准化重组,为少数民族语言教育评估提供了珍贵的基准数据。
当前挑战
构建过程面临古籍数字化技术挑战,需通过专业工具从ISBN出版物中精确提取维吾尔语特殊字符与诗歌格式。领域核心挑战在于解决低资源语言文学理解的机器评估问题,包括古典文学隐喻解析、文化背景推理以及多选项语义相似度判别。数据集规模受限也反映了少数民族语言教育数据稀缺的现状。
常用场景
经典使用场景
在自然语言处理领域,CELEP1数据集为维吾尔语教育评估提供了重要资源。该数据集主要应用于多选题问答系统的开发与测试,通过结合文学考试题目,为研究者提供了标准化的评估基准。其典型使用场景包括训练语言模型理解复杂指令、处理多选项问题以及生成准确答案,尤其在低资源语言处理中展现出独特价值。
衍生相关工作
基于CELEP1数据集,研究者已开展多项经典工作。其中包括开发端到端的维吾尔语问答模型、设计跨语言知识迁移框架,以及构建面向低资源语言的预训练技术。这些工作不仅推动了维吾尔语NLP技术的发展,更为其他少数民族语言处理研究提供了可复用的方法论和实践经验。
数据集最近研究
最新研究方向
在自然语言处理领域,CELEP1数据集作为维吾尔语文学考试选择题资源,正推动低资源语言教育评估技术的创新。当前研究聚焦于跨语言知识迁移与多模态学习融合,通过结合文学文本分析与选项推理,提升模型对文化语境的理解能力。该数据集为探索多语言大语言模型在少数民族语言上的适应性提供了基准,相关成果已应用于丝绸之路数字人文研究,对促进教育公平与语言技术多元化发展具有显著意义。
以上内容由遇见数据集搜集并总结生成



