History-in-Today 数据集
收藏github2025-10-03 更新2025-10-04 收录
下载链接:
https://github.com/JaneDevStudio/History-in-Today-Data-set
下载链接
链接失效反馈官方服务:
资源简介:
历史上的今天数据集,包含发生在特定日期的历史事件、出生和逝世信息,数据来源于中文维基百科,涵盖从公元前3000年到上周的时间范围,提供JSON、SQL、SQLite、CSV多种格式
Today in History Dataset contains historical events, birth and death records that occurred on specific dates. Its data is sourced from the Chinese Wikipedia, covers the time range from 3000 BCE to last week, and is available in multiple formats including JSON, SQL, SQLite, and CSV.
创建时间:
2025-10-03
原始信息汇总
History-in-Today 数据集概述
数据集简介
- 收录发生在"历史上的今天"的事件、出生和逝世信息
- 数据来源:中文维基百科
- 数据格式:JSON、MySQL dump、SQLite 3、CSV
- 编码格式:UTF-8
- 时间标准:公历
文件详情
| 文件名 | 格式 | 体积 | 用途 |
|---|---|---|---|
| history_in_today.json | JSON | ≈ 4 MB | 开发/前端直接引用 |
| history_in_today.sql | MySQL dump | ≈ 7 MB | 快速导入 MySQL/MariaDB |
| history_in_today.sqlite | SQLite 3 | ≈ 5 MB | 本地嵌入式数据库 |
| history_in_today.csv | CSV | ≈ 4 MB | Excel、Pandas 一键读取 |
时间范围
- 起始时间:人类文明出现"纪日"概念的可考年代(公元前3000年级别)
- 截止时间:上周(不含最新一周)
- 包含闰年2月29日,共366条mm-dd记录
- 数据集每周自动更新
数据结构
- monthday:固定mm-dd格式(如12-31)
- type:枚举值(events/births/deaths)
- content:纯文本,已去掉维基原文的脚注标记
使用方式
- 下载地址:https://github.com/JaneDevStudio/History-in-Today-Data-set/releases
- 支持多种编程语言和数据库直接使用
- 每周自动抓取更新
版权声明
- 原始文本版权归属维基百科(CC BY-SA 4.0)
- 转载需署名"中文维基百科"
- 本仓库仅做结构化整理与导出
搜集汇总
数据集介绍

构建方式
在历史信息数字化整合领域,History-in-Today数据集通过自动化脚本系统构建而成。该流程依托GitHub Actions实现每周定期抓取,利用定制化爬虫工具从中文维基百科的'历史上的今天'栏目提取结构化数据。系统采用公元2000年闰年日历作为日期模板框架,实际填充内容则严格对应真实历史年份,最终生成覆盖全年366个日期的完整记录。数据经过标准化清洗,已移除原始文本中的引用标记等非核心元素,并以多格式存储确保数据完整性。
特点
该数据集展现出显著的时间跨度优势,其记载范围从人类文明纪年起源延伸至当代社会,形成跨越五千年的历史脉络。数据架构采用三维分类体系,将每日信息精准划分为事件、出生与逝世三大类型,并通过统一的月-日格式实现时序标准化。特别值得注意的是,数据集完整收录了闰年2月29日的特殊历史事件,确保历法特殊节点的信息完整性。所有文本内容均采用UTF-8编码规范,有效支持全球语言字符集的准确呈现。
使用方法
针对不同应用场景,数据集提供四种标准化格式适配多元技术需求。JSON格式适合前端开发与轻量级应用,通过日期键值即可快速检索当日历史事件;SQL格式支持MySQL/MariaDB数据库系统的批量导入,便于构建复杂查询系统;SQLite格式为嵌入式应用提供本地化解决方案;CSV格式则兼容Excel和Pandas等数据分析工具。用户可根据具体日期和类型字段进行组合查询,例如通过月份日期匹配与事件类型筛选,即可精确获取特定日期的历史事件、名人诞辰或纪念日信息。
背景与挑战
背景概述
History-in-Today数据集由JaneDevStudio团队基于中文维基百科内容构建,聚焦于历史事件、人物出生与逝世信息的系统化整理。该数据集以公历日期为索引,覆盖从公元前3000年文明纪日起源至当代的广泛时间跨度,每周通过自动化脚本动态更新,确保数据的时效性与完整性。其结构化设计支持多格式应用,包括JSON、SQL和CSV,为历史研究、教育工具及文化应用提供了可靠的数据基础,推动了历史知识数字化与可访问性的发展。
当前挑战
该数据集旨在解决历史事件时序化检索与关联分析的挑战,尤其在处理跨年代、多类型事件的整合时,需克服数据稀疏性与语义一致性问题。构建过程中,维基百科原始内容的非结构化特性带来了数据清洗的复杂性,例如去除脚注标记并统一文本格式;同时,自动化爬虫在长期运行中需应对网站结构变更与编码兼容性风险,确保历史记录的准确采集与更新。
常用场景
经典使用场景
在数字人文研究领域,History-in-Today数据集常被用于构建时间轴分析系统,通过提取特定日期的事件、出生和逝世记录,帮助学者探索历史事件的周期性规律。例如,研究人员可利用该数据集分析重大历史事件在年度周期中的分布特征,或结合自然语言处理技术挖掘事件间的潜在关联,为历史学研究提供数据驱动的洞察。
实际应用
在文化科技融合场景中,该数据集为知识服务平台提供底层数据支撑,如智能日历应用可集成每日历史事件推送功能,教育机构能借其开发交互式历史教学工具。媒体行业则利用这些时序数据制作专题内容,通过历史与当下时间的呼应增强叙事张力,实现文化知识的场景化传播。
衍生相关工作
基于该数据集衍生的经典工作包括时序知识图谱构建项目,如将事件数据与地理信息融合的可视化分析平台。另有研究团队开发了历史事件语义相似度计算模型,通过嵌入技术揭示不同世纪事件的潜在关联。这些成果持续拓展着数字人文的研究边界,为文化遗产的智能化开发利用提供了重要参考。
以上内容由遇见数据集搜集并总结生成



