ulsit46420/bg-culture-exams
收藏Hugging Face2024-07-02 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/ulsit46420/bg-culture-exams
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自保加利亚高中毕业考试的多项选择题,涵盖保加利亚语言与文学、历史与文明、地理与经济学三个科目。数据集共包含2,599道多项选择题,其中训练集329道,测试集2,270道。每道题有4个选项。数据集的时间跨度为2007年至2024年。该数据集旨在评估大型语言模型在保加利亚语言、文学、历史、地理和经济学任务上的表现。
This dataset contains 2,599 multiple-choice questions from Bulgarian high school maturity exams in three subjects: Bulgarian Language and Literature, History and Civilization, and Geography and Economics. The questions are extracted from official exams administered between 2007 and 2024, designed to evaluate the performance of large language models on tasks related to Bulgarian language, literature, history, geography, and economics. The dataset is divided into training and test sets, with each question having four options.
提供机构:
ulsit46420
原始信息汇总
Bulgarian Maturity Exams Dataset
数据集概述
- 总问题数: 2,599
- 训练集: 329 个问题
- 测试集: 2,270 个问题
- 问题格式: 多项选择题,每题有4个选项
- 涵盖科目: 保加利亚语言与文学、历史与文明、地理与经济学
- 时间范围: 2007-2024
预期用途与限制
- 预期用途:
- 评估大型语言模型在保加利亚语中的多语言能力
- 评估模型对保加利亚语言、文学、历史、地理和经济学的知识
- 在保加利亚教育内容上对语言模型进行基准测试
- 限制:
- 问题为公开可用,可能导致预训练模型中的数据泄露
- 数据集反映保加利亚教育体系,可能不适用于其他情境
- 仅包含多项选择题,限制了对开放式语言生成的评估
数据收集与预处理
- 数据来源: 保加利亚教育部和科学部发布的官方PDF文档
- 处理步骤:
- 将PDF转换为DOCX格式
- 将DOCX转换为Markdown格式
- 使用大型语言模型(DeepSeek V2)提取和结构化问题
- 人工验证和质量控制
使用数据时的考虑
- 隐私: 数据集仅包含公开的考试问题,不包含任何个人信息
- 人口统计偏差: 内容反映保加利亚教育课程,可能包含文化偏见
- 伦理考虑: 用户应意识到教育内容中可能存在的偏见,并负责任地使用数据集
附加信息
- 数据来源: 保加利亚教育部和科学部



