bulgarian-history-complex

Hugging Face2025-09-08 更新2025-09-09 收录

下载链接：

https://huggingface.co/datasets/llm-bg/bulgarian-history-complex

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于保加利亚历史问答任务的的数据集。它包括不同配置的训练和测试数据文件，用于评估不同的模型。数据集遵循cc-by-4.0许可证，语言为保加利亚语，标签与历史相关。

创建时间：

2025-09-07

原始信息汇总

Bulgarian History QA Complex 数据集概述

数据集基本信息

许可证: CC BY 4.0
任务类别: 问答
语言: 保加利亚语 (bg)
标签: 历史
数据规模: 1K<n<10K

数据集配置

训练集 (train)

core_facts: passages.jsonl
core_facts_combined: passages_combined.jsonl
books_and_pages: books_and_pages.jsonl
core_facts_combined_gemini_2_0_flash_strat_3: active_learning/core_facts_combined_google_gemini-2.0-flash-001_3.jsonl
core_facts_combined_gemini_2_0_flash_strat_7: active_learning/core_facts_combined_google_gemini-2.0-flash-001_7.jsonl

测试集 (test)

test: questions.jsonl

模型测试结果

所有结果均在测试集上获得：

openai/gpt-4o: 64.20%
openai/gpt-4o-mini: 40.40%
google/gemini-2.5-flash-lite: 53.10%
google/gemini-2.5-flash: 63.00%
meta-llama/llama-3.1-8b-instruct: (无结果)

测试集生成提示

使用核心事实作为基础，生成独立的JSON格式问题，要求问题：

独立且包含足够理解上下文
自然简洁
正确答案为文本中的精确引用或直接提取
错误答案需为同一时期的历史可信名称/日期/地点
不编造未提及的事实或联系
问题清晰明确

搜集汇总

数据集介绍

构建方式

在历史知识问答领域，保加利亚历史复杂数据集通过系统化方法构建而成。其核心事实文本来源于权威历史文献的精选段落，采用半自动化流程生成测试问题集。利用大型语言模型根据预设提示模板，从历史文本中提取关键信息并构造多项选择题，确保问题与文本的直接关联性。构建过程中严格遵循历史准确性原则，错误选项均基于同期历史背景设计以保持迷惑性。

使用方法

使用本数据集时需遵循标准化评估流程。研究人员应首先加载核心事实文本作为知识基础，随后使用测试问题集进行模型性能验证。建议采用交叉验证方法确保结果稳定性，特别注意保加利亚语的语言特性处理。数据集支持多种机器学习任务，特别适合用于问答系统的事实准确性评估。使用过程中应当保持原始数据分割方式，训练集与测试集的严格分离可保证评估结果的客观性。

背景与挑战

背景概述

保加利亚历史问答复杂数据集诞生于数字人文研究蓬勃发展的时代，由专注于巴尔干历史计算语言学研究的团队构建。该数据集聚焦于保加利亚历史领域的机器阅读理解任务，旨在通过高质量的历史文本与问题对，推动自然语言处理技术在低资源语言中的发展。其核心研究问题在于如何使模型准确理解复杂历史语境下的时间、人物与事件关系，为东南欧历史文化遗产的数字化保存与智能检索提供重要支撑。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决历史文本中时序推理、实体消歧和跨事件关联等复杂理解任务，同时要求模型处理古保加利亚语特有的语言现象；在构建过程中，团队需克服历史文献数字化质量不均、史实准确性验证困难以及多义词语境标注等难题，特别是确保干扰选项既具有历史可信度又能有效区分模型性能。

常用场景

经典使用场景

在历史学与自然语言处理的交叉领域，Bulgarian History QA Complex数据集为多选问答任务提供了标准化的评测基准。该数据集通过精心构建的历史文本段落与对应问题，支持模型在保加利亚历史知识上的理解与推理能力测试，尤其适用于评估模型对复杂历史事件、人物关系及时间序列的把握精度。

解决学术问题

该数据集有效解决了历史领域问答系统中语境依赖性强、事实准确性要求高的学术挑战。通过提供精确的文本依据和干扰项设计，它促进了模型在事实抽取、时序推理和跨句理解等方面的研究，为低资源语言的历史知识处理提供了重要实验基础，推动了文化遗产数字化研究的深入发展。

实际应用

在实际应用中，该数据集为构建保加利亚历史教育辅助系统、智能博物馆导览工具以及多语言历史知识库提供了核心训练资源。其高质量的问答对能够支持开发面向教育机构、文化平台及研究机构的专业级历史问答系统，增强公众对东南欧历史文化的认知与访问效率。

数据集最近研究