five

Heralax/antiquated-warfare

收藏
Hugging Face2024-07-02 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/Heralax/antiquated-warfare
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于指令调优的数据集,包含300万个可训练的token,使用Augmentoolkit生成,涵盖了多本Project Gutenberg书籍的内容,主要涉及古老的战争形式,如拿破仑战争或线性战争。数据集包含三种类型:vanilla、negative和long,分别用于简单问答、纠正错误问题和提供详细回答。数据集生成时使用了Llama 3 70b模型,因此根据许可证,该数据集仅可用于改进Llama模型的衍生品。

This is an instruct tuning dataset with 3 million trainable tokens, created with Augmentoolkit, covering material from multiple Project Gutenberg books, primarily focusing on older forms of warfare, especially Napoleonic or Linear warfare. The dataset includes three main types: vanilla, negative, and long. Vanilla data is simple question-answer format, negative data is meant to enhance AI robustness, and long data is designed to increase the detail and length of AI responses. Each type of data was generated with different prompts using Augmentoolkit, and the tools and pipeline are open-sourced.
提供机构:
Heralax
原始信息汇总

数据集概述

数据集描述

  • 类型: 指令调优数据集
  • 规模: 包含300万个可训练的token
  • 生成工具: 使用Augmentoolkit创建
  • 内容来源: 基于以下Project Gutenberg书籍的内容
    • The Art of War (Sun Tzu)
    • On War (Clausewitz)
    • Battle Studies; Ancient and Modern Battle (Charles Jean Jacques Joseph Ardant du Picq)
    • Elements of Military Art and Science
    • Blue Shirt and Khaki: A Comparison
    • Lectures on Land Warfare; A tactical Manual for the Use of Infantry Officers
    • The Making of a Modern Army and its Operations in the Field
    • The Officers Manual: Napoleons Maxims of War
    • Some Principles of Frontier Mountain Warfare
    • The Reality of War: A Companion to Clausewitz
    • Tactics, Volume 1 (of 2). Introduction and Formal Tactics of Infantry
    • The Two Maps of Europe, and Some Other Aspects of the Great War
  • 内容特点: 主要关注旧式战争,特别是“拿破仑式”或“线性”战争,适合教授模型关于滑膛枪线、步兵方阵和火炮的知识
  • 对话风格: AI助手以夸张的旧时代方式进行多轮对话,具有喜剧效果

数据集结构

  • 主要数据集: 包含三种主要数据集
    • Vanilla数据: 简单对话,用户提问,AI回答
    • Negative数据: 用户提出错误、缺陷或无意义的问题,AI首先纠正用户,然后提供准确答案
    • Long数据: 用户提出广泛、开放式问题,AI提供详细回答
  • 生成方式: 每种数据集使用不同的提示生成,使用Augmentoolkit生成(提示和管道以MIT许可证开源)

其他信息

  • 生成模型: 数据集使用Llama 3 70b生成,根据许可证,可能仅用于改进Llama模型的衍生品
搜集汇总
数据集介绍
main_image_url
构建方式
在军事历史与战术研究领域,数据集的构建往往依赖于经典文献的系统性挖掘。本数据集以《孙子兵法》、《战争论》等十二部古腾堡计划中的经典军事著作为核心素材,通过Augmentoolkit工具自动生成指令调优数据,涵盖约三百万可训练标记。生成过程采用多轮对话模拟,其中AI助手以夸张的复古风格回应,部分数据还嵌入了原文片段以支持检索增强训练,整体流程遵循开源MIT许可,确保了方法的透明性与可复现性。
特点
该数据集聚焦于前现代战争形态,特别是拿破仑时代或线性战术,内容涉及火枪阵线、步兵方阵与火炮运用等主题。其独特之处在于包含三种对话类型:基础问答、纠错式问答以及开放式长回答,分别旨在提升模型的基础响应、错误修正能力与细节阐述水平。此外,部分数据整合了原文检索信息,有助于训练语言模型的上下文理解与知识追溯功能,为历史军事领域的AI应用提供了结构化的语言素材。
使用方法
使用者可依据Llama模型许可协议,将此数据集用于指令调优或检索增强训练,以提升模型在历史军事对话中的专业性与适应性。具体应用中,可分别加载‘vanilla’、‘negative’与‘long’三类数据,针对模型的不同响应能力进行定向微调。对于集成检索功能的任务,建议优先采用包含‘rag’标记的文件,以强化模型基于原文的答案生成效果。该数据集适用于构建具备历史战术分析能力的对话系统或学术研究工具。
背景与挑战
背景概述
在人工智能与军事历史研究的交叉领域,Heralax/antiquated-warfare数据集于2024年由独立研究者依托Augmentoolkit工具构建而成,旨在通过指令微调提升大语言模型对古典战争知识的理解与应用能力。该数据集精选了《孙子兵法》、《战争论》等十二部经典军事著作的数字化文本,聚焦于拿破仑时代及线式作战等传统战争形态,为模型训练提供了约三百万可训练令牌的语料资源。其核心研究问题在于如何使人工智能系统准确掌握历史军事理论、战术原则及作战环境,从而推动军事历史数字化教育、战略模拟分析等领域的智能化发展,为开源大模型在专业垂直领域的应用开辟了新路径。
当前挑战
该数据集致力于解决古典军事知识自动化问答与推理的领域挑战,要求模型不仅能准确提取历史文献中的战术细节,还需在对话中模拟特定时代语境下的表达风格,同时应对用户提问中可能存在的谬误或模糊性,实现纠正与详实回答的双重目标。在构建过程中,挑战主要集中于多源古籍文本的语义对齐与结构化处理,需确保不同著作间的术语一致性与历史背景连贯性;此外,通过Augmentoolkit生成多样化对话时,需平衡数据质量与规模,避免合成数据中的时代错位或逻辑矛盾,并严格遵守Llama 3模型的衍生使用许可,限制了数据应用的模型范围。
常用场景
经典使用场景
在军事历史与战略研究领域,Heralax/antiquated-warfare数据集以其聚焦拿破仑时代与线性战争等古典军事理论的特性,为大型语言模型的指令微调提供了经典应用场景。该数据集通过模拟历史军事对话,使模型能够深入理解步兵方阵、火枪线列与火炮部署等战术细节,从而在生成关于古代战争策略的回应时展现出专业性与历史准确性。这种应用不仅提升了模型在特定历史语境下的知识表现,也为军事教育模拟与历史分析工具的开发奠定了数据基础。
解决学术问题
该数据集有效应对了人工智能在历史军事领域知识表示与推理的学术挑战。通过整合《孙子兵法》、《战争论》等多部经典军事著作的文本,它解决了大型语言模型对古代战争术语、战术原则及历史背景理解不足的问题。其意义在于构建了一个结构化的军事历史语料库,促进了模型在复杂历史语境下的逻辑推理能力,为跨学科研究如计算历史学与战略模拟提供了可靠的数据支持,推动了人工智能在人文社科领域的深度融合。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,特别是在检索增强生成与对抗性训练方向。数据集中的RAG版本通过集成书籍片段作为系统提示,推动了模型在军事历史检索任务中的性能优化;而负样本数据则启发了针对模型鲁棒性的对抗训练方法,使其能够纠正用户的错误军事假设。这些工作进一步拓展了数据集的效用,为后续如历史对话生成、知识图谱构建等研究提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作