ButceEgitim
收藏Hugging Face2025-09-17 更新2025-09-18 收录
下载链接:
https://huggingface.co/datasets/canunver/ButceEgitim
下载链接
链接失效反馈官方服务:
资源简介:
ButceEgitim数据集是一个土耳其语公共预算领域的命令-响应数据集,包含词汇、代码和文本说明,适用于指令微调和文本生成任务。
创建时间:
2025-09-15
原始信息汇总
数据集概述
基本信息
- 数据集名称: Bütçe Eğitim (Komut - Cevap)
- 数据集标识符: ButceEgitim
- 语言: 土耳其语 (tr)
- 许可证: other
- 数据规模: 10K < n < 100K
任务类型
- 文本生成 (text2text-generation)
- 指令调优 (instruction-tuning)
- 指令遵循 (instruction-following)
- 问答 (question-answering)
数据内容与格式
数据来源
基于公共预算领域的词典、代码和文本说明生成的土耳其语指令-回答对
数据组成
包含以下实体相关的说明文本:
- 程序/子程序/活动/机构/经济代码词典
- 与这些实体相关的理由、依据、成本、说明文本
数据格式
每行包含三个字符串字段:
instruction: 指令文本input: 输入文本(某些样本中为空字符串)output: 输出文本(某些包含字符串化的JSON数组)
特殊说明
- 所有字段均已规范化为字符串类型
- 某些
output字段包含字符串化的JSON数组(例如:"[{"KOD":"01.01","AD":"MEMURLAR"}]") input字段在某些样本中为空字符串("")
快速使用
python from datasets import load_dataset
ds = load_dataset("canunver/ButceEgitim", split="train") print(ds[0])
转换为SFT格式的示例函数
def to_sft(ex): instr = (ex["instruction"] or "").strip() inp = (ex["input"] or "").strip() out = (ex["output"] or "").strip() prompt = f"### Talimat: {instr}
Girdi:
{inp}
Yanıt:"
return {"text": prompt, "labels": out}
cols = ds.column_names ds_sft = ds.map(to_sft, remove_columns=cols)
搜集汇总
数据集介绍

构建方式
在公共预算编制领域,该数据集通过系统整合土耳其语词典、代码及文本解释构建而成。其构建过程涉及对程序、子程序、活动、机构和经济代码等结构化词汇的提取,并关联至对应的理由、依据、成本及说明文本。每条数据均以指令、输入和输出三个字符串字段规范化存储,部分输出字段采用字符串化的JSON数组格式,确保数据结构的一致性与可解析性。
特点
该数据集专为土耳其语指令微调任务设计,覆盖文本生成与问答场景,规模介于1万至10万条之间。其核心特点在于深度融合预算领域的专业术语与自然语言描述,输入字段允许为空,凸显任务灵活性。数据以标准化三元组形式呈现,输出中嵌入结构化JSON信息,兼顾机器可读性与自然语言交互需求,为领域特异性语言模型训练提供高质量资源。
使用方法
用户可通过Hugging Face库直接加载数据集,并利用内置转换函数将其调整为指令微调所需的序列到序列格式。典型应用包括构建提示模板,整合指令、输入及响应字段,生成符合监督微调要求的文本序列。该方法支持快速适配生成式模型训练流程,适用于预算领域的自动化问答、文本生成及结构化数据解析等下游任务。
背景与挑战
背景概述
在自然语言处理领域,指令微调技术的发展对专用领域文本理解提出了更高要求。ButceEgitim数据集由土耳其研究人员于2023年创建,专门针对公共预算领域的土耳其语指令应答任务。该数据集聚焦于政府预算编制过程中的专业术语、代码体系及文本解释,旨在提升模型对财政管理领域复杂语义的理解能力,为土耳其语自然语言处理在专业领域的应用提供了重要资源支撑。
当前挑战
该数据集主要解决公共预算领域的专业文本理解与生成挑战,包括预算编码体系的复杂语义解析、多层级财政概念的准确表征,以及专业术语与日常用语的语义鸿沟问题。在构建过程中面临预算文档的多模态数据整合、专业术语的一致性标注、JSON格式输出的标准化处理等技术难点,同时需要确保财政数据的敏感信息处理符合规范要求。
常用场景
经典使用场景
在公共财政数字化进程中,ButceEgitim数据集为土耳其语指令微调任务提供了专业语料支撑。该数据集通过解析政府预算文档中的程序代码、经济分类和机构信息,构建了高质量的指令-输出对,广泛应用于预算问答系统的训练与评估。研究者利用其结构化特征开发智能预算分析工具,显著提升了财政数据的可解释性和交互效率。
解决学术问题
该数据集有效解决了低资源语言在专业领域指令跟随任务中的语料稀缺问题。通过提供标准化预算术语和逻辑关系标注,支持财政文本生成模型的跨域迁移学习,推动了土耳其语NLP技术在公共管理领域的深度应用。其细粒度的代码-文本映射机制为研究预算语义理解提供了重要基准。
衍生相关工作
基于该数据集衍生了BütceBERT等预训练模型,这些模型在土耳其财政文本分类任务中达到最先进性能。后续研究构建了多模态预算可视化系统,将文本指令与财政图表生成相结合。另有工作扩展了跨语言预算比对框架,支持土耳其语与英语预算术语的自动对齐分析。
以上内容由遇见数据集搜集并总结生成



