Vetustas Archiva

github2026-06-27 更新2026-07-01 收录

下载链接：

https://github.com/0xShady/vetustas-archiva

下载链接

链接失效反馈

官方服务：

资源简介：

Vetustas Archiva 是一个开放、精心策划的数据集集合，涵盖历史和文化领域的著名事物，包括电影、音乐、游戏、书籍、人物、公司、发明、地标、艺术等。这些数据集从公共来源编译并丰富为干净、一致的CSV文件，共包含14个数据集和4,531条记录。

创建时间：

2026-06-04

原始信息汇总

Vetustas Archiva 数据集详情

概述

Vetustas Archiva 是一个开放、精选的历史文化数据集集合，收录了电影、音乐、游戏、书籍、人物、公司、发明、地标、艺术等领域的 Notable 事物。数据来源于公开资料，经过整理和丰富后以整洁、一致的 CSV 格式提供。当前包含 4,531 条记录，分布于 14 个数据集。

数据集列表

文件名	记录数	内容说明
`datasets/movies.csv`	440	电影，包含 IMDb 评分、导演、类型、时长
`datasets/tv.csv`	329	电视剧，包含季/集数、电视网、创作者
`datasets/anime.csv`	268	动漫，包含工作室、格式、AniList 评分
`datasets/games.csv`	272	电子游戏，包含开发商、发行商、系列
`datasets/music.csv`	309	专辑，包含厂牌、曲目、认证、流行度
`datasets/literature.csv`	315	图书，包含作者、类型、语言
`datasets/fine-art.csv`	292	绘画与雕塑，包含艺术家、艺术运动、媒介
`datasets/landmarks.csv`	289	建筑与遗址，包含建筑师、国家
`datasets/people.csv`	502	知名人物，包含职业、国籍
`datasets/companies.csv`	398	公司，包含创立年份、行业、类型
`datasets/inventions.csv`	296	发明与发现，包含发明者、类别
`datasets/events.csv`	497	历史事件，包含事件类型、时代
`datasets/football-clubs.csv`	234	足球俱乐部
`datasets/basketball-clubs.csv`	90	篮球俱乐部

数据格式

文件格式：UTF-8 CSV，使用换行，第一行为表头。
每条记录有一个固定的 id 字段，为 UUIDv4 格式，全局唯一且永久不变，即使记录被更正也不会重新使用。
日期格式：使用带符号的 YYYY[-MM[-DD]]，精度与实际一致（如仅知年份则写 YYYY，公元前为负值 -YYYY）。
图片列（poster、cover、logo、crest、image）存储外部图片的 URL，本仓库不存储图片文件。
受控词汇列（如 genre、type、category、movement、era）已归一化为每个数据集内部的小型规范集合。

数据使用方式

数据为纯 CSV 格式，可直接使用 pandas、电子表格软件或任何编程语言读取。
也可通过 公共 API 进行实时查询，无需克隆仓库：
- API 端点：api.vetustas.net，提供按数据集划分的端点，支持筛选条件。
- 调用示例：curl "https://api.vetustas.net/v1/movies?genre=Sci-Fi&min_rating=8&year_min=2000"
- 完整 API 文档：https://docs.vetustas.net

许可证

数据集（datasets/）：CC BY-SA 4.0 — 可自由使用、分享和改编（包括商业用途），需注明出处，衍生作品需以相同许可证开放。
代码（scripts/）：MIT 许可证。
数据来源于各类公开资料，各资料有其自身的使用条款，详见 datasets/LICENSE。

搜集汇总

数据集介绍

构建方式

Vetustas Archiva数据集构建于对公开文化资料的深度挖掘与系统性整理之上，涵盖电影、音乐、游戏、书籍、人物、公司、发明、地标、艺术等十四个主题领域。每个领域对应一个独立的UTF-8编码CSV文件，数据集共收录4531条记录。每条记录均分配一个永久且全局唯一的UUIDv4作为稳定标识符，即使记录内容被修正，该标识符也不会改变或重复使用。日期字段采用有符号的YYYY[-MM-DD]格式，依事实精度截断，公元前年份以负值表示。图像字段仅存储外部托管URL，控制词汇字段（如类型、类别、运动、时代）则归一化为每个数据集内的小规模规范集合。数据集的生成与维护依赖于仓库下的Node和Python脚本，开发者需通过npm install安装依赖，并配置必要API密钥后运行各子集的扩展脚本，最终经过UUID回填与校验流程确保数据质量。

特点

该数据集最显著的特征在于其跨领域的百科式文化图谱属性，将十四类截然不同的文化实体以统一的CSV格式和一致的数据规范并置于同一仓库中，极大便利了跨领域比较与融合分析。每条记录拥有的永久UUID标识符设计，使其成为长期引用的可信锚点，适应数据随时间演化的需求。控制词汇的归一化处理确保了不同来源、不同时期的记录在分类维度上的可比性，而日期字段的精确截断策略则尊重了历史事实固有的精度差异，避免了过度形式化导致的错误推断。此外，数据集配套提供了交互式探索网站、无令牌限制的公共JSON API以及基于数据制作的问答游戏，构成了以数据集为核心元件的完整生态，显著降低了非技术用户获取和利用数据的门槛。

使用方法

使用者可通过三种途径获取与查询数据。最直接的方式是直接读取仓库中的原始CSV文件，利用任意编程语言（如Python的csv.DictReader、TypeScript的fs模块）或电子表格软件打开即可使用，无需任何构建步骤。对于需要实时查询的场景，可通过公共REST API按端点访问各子集数据，支持按类型、评分、年份等字段进行过滤，无需身份验证或令牌，只需通过curl等工具发送HTTP请求即可。交互式探索网站则提供了图形化界面，支持浏览、搜索、排序与过滤，并集成了值计数、直方图、等值线图等交互式图表功能，适合快速预览与可视化分析。所有途径均基于同一份数据源，确保查询结果的一致性，用户可根据技术背景与需求灵活选择使用方式。

背景与挑战

背景概述

Vetustas Archiva 是一个由独立开发者 0xShady 于近年创建的开源数据集项目，旨在系统性地收录人类历史与文化中具有显著意义的事物。该数据集涵盖电影、音乐、游戏、书籍、人物、公司、发明、地标、艺术等14个类别，共计4531条记录，每条记录均以UUIDv4作为永久稳定标识符。数据来源于公开资料，经过清洗与结构化处理，以统一的CSV格式发布，并配以可视化探索工具、公共API及知识问答游戏，构成了一个完整的数据生态。该项目采用CC BY-SA 4.0许可协议，鼓励开放共享与社区贡献，在数字人文与开放数据领域具有重要参照价值，为跨学科的文化遗产研究提供了标准化、可复用的数据基础。

当前挑战

Vetustas Archiva 面临的核心挑战首先在于领域问题的复杂性：如何从浩如烟海的人类文化产物中确立‘具有显著意义’的收录标准，并确保跨类别数据的语义一致性与覆盖广度，避免因主观偏好导致的数据偏差。其次，构建过程中挑战重重：数据源异构且分散，需从多个公开平台（如IMDb、AniList等）爬取并整合，面临API密钥管理、频率限制及字段映射的困难；历史日期存在公元前、年份精度不统一等问题，需设计灵活的编码方案；此外，还需持续维护数据的时效性与准确性，依赖社区提交修正与新记录，对数据验证流程提出了高要求，同时需妥善处理不同来源数据的版权兼容性。

常用场景

经典使用场景

Vetustas Archiva数据集汇集了横跨电影、音乐、文学、美术、游戏、历史事件、人物、企业等多个维度的4,531条精炼记录，每一实体皆以UUIDv4标识符锚定唯一身份，辅以规范化分类语汇与时间戳。研究者可将其作为多模态历史文化现象分析的基础语料——例如通过IMDb评分与导演、流派字段探讨电影佳作的时间分布规律，或借助人物国籍与发明类别字段绘制跨时代的技术创新地理地图。其整洁的CSV格式与开放API设计，使得从统计学聚类、时序趋势挖掘到知识图谱构建等多样化学术探索均能无缝落地。

实际应用

在实际应用中，Vetustas Archiva表现为一个轻盈而开放的文化知识底座。开发者可直接加载CSV文件以构建百科查询系统、知识图谱可视化面板或个性化推荐引擎——例如根据用户喜爱的文学流派与历史时期推荐匹配的电影与音乐专辑。其配套的公共JSON API进一步降低了接入门槛，支持实时过滤与搜索，使得移动端工具、教育互动课件乃至AI模型的训练数据流水线皆能快速集成。项目还衍生了基于这些数据集设计的猜谜游戏（vetustas.net），展示了历史文化数据在寓教于乐中的生动潜力。

衍生相关工作

围绕Vetustas Archiva数据集已孵化出一系列高价值衍生工作。一方面，基于同一数据源的交互式可视化探索平台（archiva.vetustas.net）提供了直方图、时序图与地理分布图等动态分析工具，将原始表格转化为直观的文化景观。另一方面，其开源脚本体系鼓励社区贡献者通过扩充新类别（如地标建筑、体育俱乐部）或修正既有记录来持续演变数据集的生命力。这种“单一真实源头+多下游应用”的架构，为其他领域建立开放谱系数据集树立了可复制的范式——从历史事件实体对齐到跨文化影响力量化研究，均可能从中汲取方法论启发。

以上内容由遇见数据集搜集并总结生成

Vetustas Archiva

Vetustas Archiva 数据集详情

概述

数据集列表

数据格式

数据使用方式

相关资源

许可证