five

Kazakh Instruction Tuning Dataset (IFT)

收藏
arXiv2025-02-19 更新2025-02-21 收录
下载链接:
https://www.gov.kz, https://kk.wikipedia.org
下载链接
链接失效反馈
官方服务:
资源简介:
本研究构建并开源了一个大规模(10600条样本)的指令跟随(IFT)数据集,涵盖了与哈萨克斯坦相关的关键机构和文化遗产知识。数据集由两部分组成:一部分是来自哈萨克斯坦官方电子政府门户(gov.kz)的政府数据,另一部分是来自哈萨克维基百科的文化数据。数据集的构建采用了LLM辅助生成的方式,并经过人工验证确保高质量。该数据集旨在提升语言模型对程序性、法律性和结构性治理主题的理解,并可用于微调任务,以提高模型在多选和生成任务中的表现。

This study constructs and open-sources a large-scale (10,600 instances) instruction-following (IFT) dataset covering key institutional and cultural heritage knowledge related to Kazakhstan. The dataset comprises two components: government data sourced from the official e-government portal of Kazakhstan (gov.kz), and cultural data retrieved from the Kazakh Wikipedia. The dataset was developed using LLM-aided generation workflows and underwent manual validation to ensure high data quality. This dataset is designed to improve language models' comprehension of procedural, legal, and structural governance-related topics, and can be applied to fine-tuning tasks to enhance model performance on both multiple-choice and generative tasks.
提供机构:
阿拉伯联合酋长国人工智能研究所
创建时间:
2025-02-19
搜集汇总
数据集介绍
构建方式
该数据集的构建方式是通过LLM辅助数据生成,使用GPT-4o作为骨干模型,从公共政府和文化来源的高质量未标记文本中提取事实信息和相应的指令。数据集中的每个实体都经过全面的人工验证,以确保高质量。该数据集涵盖了与哈萨克斯坦相关的关键制度和文化遗产知识,增强了LLMs对程序、法律和结构治理主题的理解。
使用方法
该数据集的使用方法包括多选题和生成任务评估。在多选题评估中,使用DasturMC、Kazakh ConstitutionMC和Kazakh Unified National三个数据集,评估模型在哈萨克语传统、法律体系和公民权利等方面的知识。在生成任务评估中,使用ROUGE和BERTScore自动评估模型的生成性能,并通过GPT-4o进行偏好评估。
背景与挑战
背景概述
随着自然语言处理(NLP)技术的快速发展,大型语言模型(LLMs)在理解和生成自然语言方面的能力日益增强。然而,低资源语言,如哈萨克语,由于其有限的文本数据,特别是在政府和文化领域,使得指令微调在低资源语言中的应用仍然处于探索阶段。为了填补这一空白,研究人员Nurkhan Laiyk、Daniil Orel等人在2025年提出了一个名为Kazakh Instruction Tuning Dataset (IFT)的大规模指令跟随数据集,该数据集涵盖了与哈萨克斯坦相关的关键机构和文化遗产知识。IFT数据集的创建旨在提高LLMs对程序性、法律和结构性治理主题的理解,并通过LLM辅助的数据生成方法,将高质量的无标签文本转换为指令数据。IFT数据集的引入为低资源语言的研究和应用提供了宝贵的资源,并为LLMs在政府和文化领域中的应用开辟了新的可能性。
当前挑战
尽管IFT数据集为低资源语言的研究和应用提供了重要的资源,但仍然面临一些挑战。首先,构建大规模的高质量指令数据集是一个昂贵且耗时的过程,特别是在低资源语言中。其次,如何确保数据集的文化和语言准确性也是一个挑战,因为直接翻译往往无法捕捉到地区治理、习俗和语言变体的细微差别。此外,IFT数据集主要关注标准哈萨克语,并未明确考虑区域方言或变体,这可能会限制其在非标准方言使用者中的应用。最后,由于政府程序可能会随时间变化,因此IFT数据集中的数据可能会变得过时,需要定期更新以保持其相关性。
常用场景
经典使用场景
在低资源语言中,尤其是在政府和文化领域,指令微调一直是一个未充分探索的领域,主要原因是文本数据的匮乏。为了解决这一问题,IFT数据集应运而生,它是一个大规模的指令遵循数据集,包含与哈萨克斯坦相关的关键机构和文化遗产知识。IFT数据集通过增强LLMs对程序、法律和结构治理主题的理解,为低资源语言提供了宝贵的资源。此外,IFT数据集还通过LLM辅助数据生成,并比较了开放权重和封闭权重模型在数据集构建中的效果,为低资源语言的数据集构建提供了新的思路。
解决学术问题
IFT数据集解决了低资源语言中指令微调数据集缺乏的问题,并展示了在低资源语言中通过LLM辅助数据生成方法构建大规模指令数据集的潜力。IFT数据集的引入,为低资源语言的NLP研究和应用提供了重要的数据支持,有助于提高LLMs在低资源语言中的理解和生成能力。此外,IFT数据集还展示了将本地化知识融入指令微调的潜力,为低资源语言的NLP研究和应用开辟了新的方向。
实际应用
IFT数据集在现实世界中的应用场景十分广泛。例如,在政府服务领域,IFT数据集可以帮助LLMs更好地理解当地的法律法规和行政程序,从而提供更准确、更个性化的服务。在文化领域,IFT数据集可以帮助LLMs更好地理解和生成与当地文化相关的文本,从而丰富人们的文化生活。此外,IFT数据集还可以用于教育、旅游、医疗等多个领域,为人们的生活带来便利。
数据集最近研究
最新研究方向
该研究着重于解决低资源语言在政府和文化领域内指令微调的不足,特别是在哈萨克语中。通过构建一个包含10,600个样本的大规模指令遵循(IFT)数据集,该数据集覆盖了与哈萨克斯坦相关的关键制度和文化遗产知识,从而增强了大型语言模型(LLMs)对这些领域的理解。该研究采用了LLM辅助的数据生成方法,并比较了开放权重和封闭权重模型在数据集构建中的有效性。此外,该研究还展示了在多个选择和生成任务上对Qwen、Falcon和Gemma模型进行微调后,模型性能的持续改进,这证明了LLM辅助的指令微调在低资源语言中的潜力。
相关研究论文
  • 1
    Instruction Tuning on Public Government and Cultural Data for Low-Resource Language: a Case Study in Kazakh阿拉伯联合酋长国人工智能研究所 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作