CELEP2

Hugging Face2025-09-06 更新2025-09-07 收录

下载链接：

https://huggingface.co/datasets/yasinjan/CELEP2

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个由2011年和2012年全国高考文科试题中的开放式问题组成的数据集，包含了问题及答案。数据集在保留内容原样的基础上进行了结构上的调整，适用于文本生成任务。

This is a dataset comprising open-ended questions from the 2011 and 2012 National College Entrance Examination (Gaokao) liberal arts papers, which includes both the questions and their corresponding answers. The dataset has been structurally adjusted while retaining the original content, and is suitable for text generation tasks.

创建时间：

2025-08-30

原始信息汇总

数据集概述

基本信息

数据集名称: College Entrance Literature Exam Part2
许可证: Apache-2.0
语言: 维吾尔语 (ug)
任务类别: 文本生成
数据规模: 小于1K样本

数据来源

数据集合并了"2011年普通高等学校招生全国统一考试试题-语文"和"2012年普通高等学校招生全国统一考试试题-语文"中的开放式问题。内容保持未修改原则，仅进行结构更改。问题和答案均取自书籍《نەمۇنە سۇئال ئۈلگىلىك ئەسەر》(ISBN:978 7 5466 0917 1)。

数据特征

特征字段:
- instruction: 字符串类型
- grade: 字符串类型
- passage: 字符串类型
- question: 字符串类型
- answer: 字符串类型

数据划分

训练集:
- 样本数量: 52
- 数据大小: 133,070字节
- 下载大小: 41,878字节
- 数据集总大小: 133,070字节

相关资源

文本提取工具: https://github.com/datalab-to/marker
文本提取过程: https://colab.research.google.com/drive/1VjkchSO_MgaLz-TDpXmXXSEUq9e5Fli8?usp=sharing

搜集汇总

数据集介绍

构建方式

在维吾尔语文学教育评估领域，CELEP2数据集整合了2011年与2012年普通高等学校招生全国统一考试语文-文学部分的开放性试题。构建过程中严格遵循内容零修改原则，仅对原始材料进行结构性重组。所有题目与参考答案均源自权威教材《نەمۇنە سۇئال ئۈلگىلىك ئەسەر》(ISBN:978 7 5466 0917 1)，通过Datalab开发的文本提取工具marker实现数字化转换，确保了学术资源的精确再现。

特点

该数据集专攻维吾尔语文学能力评估，包含指令、等级、文本段落、问题及标准答案五个结构化字段。其核心价值在于完整保留了高考原题的学术严谨性，52个训练样本虽规模精炼，但每个样本均承载着高密度的文学分析要素。所有内容均采用维吾尔语(ug)呈现，为少数民族语言自然语言处理任务提供了稀缺的高质量语料，特别适合文本生成与教育评估场景的应用探索。

使用方法

研究者可通过HuggingFace平台直接加载数据集，其Apache-2.0许可证支持学术与商业用途的灵活开发。典型应用包括构建维吾尔语文学试题自动生成系统、设计智能阅卷模型或开发语言教育辅助工具。使用时应注重保持原题的文化语境完整性，建议结合传统机器学习与深度学习技术进行多任务学习，特别注意维吾尔语特有的语言特征对模型性能的影响。

背景与挑战

背景概述

CELEP2数据集源于2011年与2012年维吾尔语文学高考开放式试题的整合，由Datalab团队基于教材《نەمۇنە سۇئال ئۈلگىلىك ئەسەر》构建而成。该数据集专注于维吾尔语文学理解与生成任务，旨在为少数民族语言教育及自然语言处理研究提供高质量标注资源。其创建遵循内容零修改原则，仅对结构进行标准化处理，显著提升了突厥语族语言模型的学术训练价值。

当前挑战

该数据集核心挑战在于解决低资源语言文学理解任务的评估难题，特别是开放式问答中语义连贯性与文化语境适配性问题。构建过程中面临原始教材文本数字化提取的技术瓶颈，需克服维吾尔语复杂字形处理与跨页内容结构重建的困难，同时保持文学性表达与标准答案间的精确对齐。

常用场景

经典使用场景

在自然语言处理领域，CELEP2数据集作为维吾尔语文学考试题目的集合，主要应用于机器阅读理解与开放域问答系统的训练与评估。该数据集通过提供真实的考试题目和标准答案，为研究者构建能够理解复杂文学文本并生成准确答案的模型提供了重要资源。其高质量的标注和语言多样性使其成为测试模型跨语言理解能力的理想选择。

解决学术问题

CELEP2数据集有效解决了低资源语言在自然语言处理研究中数据稀缺的学术难题，特别是针对维吾尔语的机器阅读理解任务。通过提供结构化的考试题目和答案，该数据集支持研究者开发更精准的文本理解模型，促进跨语言NLP技术的发展。其在学术界的意义在于填补了非英语语言数据集的空白，为多语言模型的研究提供了坚实基础。

衍生相关工作

CELEP2数据集的发布促进了多项相关研究工作的开展，包括基于维吾尔语的机器阅读理解模型和跨语言问答系统的开发。研究者利用该数据集进行了多语言预训练模型的微调实验，推动了低资源语言NLP技术的进步。这些衍生工作不仅扩展了数据集的应用范围，还为后续研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集