five

Human History According to AI

收藏
github2026-04-18 更新2026-04-15 收录
下载链接:
https://github.com/Magnussmari/Human_history_Acording_to_AI
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个按年份排列的人类历史数据集,包含从公元前3200年到公元2025年的结构化JSON数据。每个年份都有事件记录、主要来源、确定性级别、地理间隙声明和因果图边。数据集共包含5,226个年份,17,991个事件和13,130个交叉年份连接。

This is a chronologically arranged human history dataset covering 5,226 years from 3200 BCE to 2025 CE. Each year corresponds to a structured JSON file containing events, primary sources, confidence levels, geographic gap declarations, and causal graph edges. The dataset is designed for use with graph databases, timelines, adversarial review, and further AI reasoning.
创建时间:
2026-04-10
原始信息汇总

Human History According to AI 数据集概述

数据集基本信息

  • 数据集名称: Human History According to AI
  • 内容描述: 一个涵盖人类文明有记录以来每一年历史的、结构化、有来源、机器可读的知识语料库。它不是教科书,而是为图数据库、时间线、对抗性审查和进一步AI推理设计的结构化知识语料库。
  • 时间跨度: 公元前3200年至公元2025年,共5226年。
  • 数据格式: 每年一个结构化JSON文件。
  • 核心原则: 无捏造、反奉承协议、无非时代性框架、全球覆盖(缺失部分被声明而非隐藏)、来源类型化。

数据集规模与统计

  • 总年份数: 5,226年 (100%完成)
  • 总事件数: 17,991个
  • 图边数量: 13,130条跨年连接
  • 平均每年事件数: 3.4个
  • 失败年份数: 0
  • 数据生成总运行时间: 57.7小时 (2026年4月10日至13日)
  • 总API成本估算: 约15.68美元
  • 使用模型: Claude Sonnet 4.6 (独占使用)

数据结构与模式

每个年份的JSON数据遵循ICCRA模式,包含以下关键字段:

  • year: 年份 (整数,负值为公元前)
  • year_label: 年份标签 (如 "1066 CE")
  • era_context: 时代背景描述
  • documentation_level: 文档记录级别 (rich, moderate, sparse, minimal, negligible)
  • geographic_coverage_gaps: 地理覆盖缺失区域声明
  • events: 事件列表,每个事件包含:
    • id: 事件ID
    • title: 事件标题
    • region: 地区
    • category: 类别 (共11个有效类别)
    • description: 描述
    • key_figures: 关键人物
    • sources: 来源列表 (包含名称、类型和是否为当代来源)
    • certainty: 确定性级别 (confirmed, probable, approximate, traditional, legendary)
    • certainty_note: 确定性说明
  • disconfirming_evidence: 反驳证据 (记录关于该年份的争议点)
  • historiographic_note: 史学注释
  • graph_edges: 图边列表 (表示事件间的因果关系,包含来源、目标、关系和说明)
  • _meta: 元数据 (包含模型信息和处理时间戳)

来源类型与确定性

  • 来源类型: 主要文本、考古学、碑铭学、钱币学、编年史、口述传统。
  • 确定性级别分布: 已确认 80.6%,很可能 15.7%,近似 3.5%,其他 0.2%。
  • 来源归属: 99.98%的事件有命名来源。

质量保证与验证

  • 最终验证通过率: 100%有效
  • 验证检查项:
    • JSON结构: 所有5,226个文件均可正确解析
    • 必填字段: 全部存在 (年份、事件、反驳证据、来源)
    • 类别值: 11个有效类别;复合类别已自动修复
    • 确定性分布: 如上所述
    • 来源归属: 如上所述
    • 失败年份: 0

相关资源

  • 交互式时间线前端: https://human-history-acording-to-ai.vercel.app (基于Next.js 16构建)
  • GitHub仓库: https://github.com/Magnussmari/Human_history_Acording_to_AI
  • 研究提示模板: 位于仓库中的 RESEARCH_PROMPT.md 文件,包含ICCRA提示模板。
  • 贡献指南: 位于仓库中的 CONTRIBUTING.md 文件。

项目阶段与未来计划

  • 第一阶段 (已完成): 生成原始语料库。
  • 第二阶段 (计划中):
    • 对抗性验证: 使用第二个模型 (如GPT-4.1或DeepSeek R1) 审查每一年并标记模型间的矛盾。
    • 图遍历: 构建跨越所有13,130条边的完整因果图。
    • Neo4j导入: 准备Cypher导入脚本以利用现有的图边。
    • 区域公平性审计: 系统审查 geographic_coverage_gaps 以量化西方偏见。
    • API开发: 将语料库作为可查询的REST API公开。
搜集汇总
数据集介绍
main_image_url
构建方式
在历史信息结构化领域,该数据集通过高度自动化的流程构建而成。采用五路并行异步智能体架构,以批次处理方式每轮生成五个年份的数据,显著提升了处理效率。整个流程依托Claude Sonnet 4.6模型,直接调用Anthropic API进行批量处理,在57.7小时内完成了从公元前3200年至公元2025年共计5226个年份的研究。每个年份的数据均严格遵循ICCRA规范,包含事件描述、原始来源、确定性等级、地理覆盖缺口声明以及因果图边等结构化字段,确保了数据的机器可读性与学术严谨性。
特点
该数据集的核心特征在于其全面性与透明性。它系统性地覆盖了人类有文字记载的整个历史跨度,共收录了17991个历史事件,并建立了13130条跨年份的因果关联边。数据集特别强调对信息不确定性的量化处理,为每个事件标注了从‘确证’到‘传说’的确定性等级,并明确声明了特定年份下史料缺失的地理区域。其反阿谀协议要求每个年份都必须包含反驳性证据,而严格的反时代错位原则确保了历史叙事的准确性。所有主张均需注明具体来源类型,杜绝了‘常识’等模糊引用。
使用方法
该数据集的设计旨在支持多样化的学术与技术应用。其标准化的JSON格式便于直接导入图数据库(如Neo4j),以进行复杂的因果网络分析与历史路径探索。配套的交互式时间线前端基于Next.js 16构建,提供了虚拟化滚动、年份跳转、事件分类与确定性过滤等功能,为用户提供了直观的数据浏览体验。研究人员可通过运行提供的验证脚本对数据质量进行核查,并遵循贡献指南进行对抗性审查或区域性深度研究,以增强数据集的可靠性与覆盖广度。数据集亦可通过简单的提示词在任何AI智能体中复现单一年份的研究流程,促进了研究方法的可重复性。
背景与挑战
背景概述
在数字人文与计算史学领域,构建大规模、结构化且可验证的历史知识库是一项前沿探索。'Human History According to AI'数据集由独立研究者Magnus Smarason于2026年创建,其核心目标在于利用先进的人工智能模型,系统性地重构人类有记录以来的全部历史跨度,涵盖自公元前3200年至公元2025年共计5226个年份。该数据集采用严谨的ICCRA(Intent, Context, Constraints, Reporting, Authority)架构,将每年历史事件编码为包含事件描述、原始出处、确定性评估、地理覆盖声明及因果图关系的标准化JSON格式。它不仅挑战了传统历史叙事的线性与地域局限性,更通过机器可读的结构化形式,为历史因果关系分析、跨文化比较研究及人工智能的历史推理提供了高质量、可追溯的语料基础,标志着人工智能辅助的宏观历史研究迈入了实证化与结构化新阶段。
当前挑战
该数据集致力于解决历史知识结构化与机器可理解这一核心领域问题,其构建面临多重挑战。首要挑战在于历史事实的验证与不确定性量化,需在浩如烟海的史料中区分确证、可能、近似及传说事件,并明确标注每一论断的原始来源与置信度,避免人工智能常见的幻觉与捏造倾向。其次,构建过程遭遇了技术优化与质量控制的平衡难题:初期采用订阅制CLI工具面临速率限制与高昂成本,迁移至直接API调用后虽实现成本降低99%与速度提升29倍,但模型选择实验(如Haiku模型)曾导致输出质量下降,迫使全部数据需重新由高性能模型生成。此外,确保全球历史覆盖的公平性亦构成持续挑战,数据集要求明确声明每年研究的地理覆盖空白,以揭露并量化潜在的两方中心主义偏见,这需要持续的人类专家参与进行对抗性审查与区域深度校验。
常用场景
经典使用场景
在历史信息学与数字人文领域,该数据集以其结构化、可机读的特性,为历史事件的因果关联分析提供了理想的数据基础。研究者能够利用其包含的13,130条跨年度图边关系,构建大规模的历史事件因果网络,从而揭示长时段历史进程中事件间的连锁反应与深层模式。这种基于图数据库的分析方法,使得宏观历史趋势的量化研究与微观历史脉络的可视化追踪成为可能。
实际应用
在应用层面,该数据集支撑了交互式历史时间线应用的开发,为用户提供了从公元前3200年至公元2025年的全局历史浏览体验。其前端设计遵循渐进式披露原则,便于教育、文化传播及公众历史认知。同时,其机器可读的JSON格式与图边数据,可直接导入Neo4j等图数据库,为构建历史知识图谱、开发智能问答系统或历史模拟分析工具提供了高质量、结构化的数据源。
衍生相关工作
围绕该数据集的结构化范式与质量保障机制,已衍生出针对历史知识图谱构建与验证的系列工作。其采用的ICCRA(意图、语境、约束、报告、权威)模式为AI生成历史内容的可信度评估设立了新标准。相关工作正聚焦于利用该数据集进行对抗性验证、区域公平性审计,以及开发基于图遍历算法的历史因果链分析工具,旨在进一步提升历史知识库的鲁棒性与解释深度。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作