AI-in-Films Corpus
收藏github2026-05-16 更新2026-05-18 收录
下载链接:
https://github.com/2020science/ai-in-films-corpus
下载链接
链接失效反馈官方服务:
资源简介:
一个精心策划的国际故事片语料库(1927-2026年),其中人工智能是主要情节驱动因素。每个条目都标注了电影描绘的未来类型以及AI在其中的表现方式,支持跨数十年、地区和AI对人类前景可能意味着什么的愿景进行比较研究。
A curated international corpus of narrative feature films (1927–2026) where artificial intelligence (AI) serves as the primary plot driver. Each entry is annotated with the type of future depicted in the film and the manner in which AI is portrayed within it, enabling comparative studies across decades, regions, and visions of what AI could mean for humanity's future.
创建时间:
2026-05-15
原始信息汇总
AI-in-Films Corpus 数据集概述
基本信息
- 数据集名称:AI-in-Films Corpus
- 数据规模:包含 169部电影,涵盖 31个国家、21种语言,时间跨度 1927–2026年
- 创建者:Andrew Maynard(与 Claude Code 合作,使用 Opus 4.7 Max)
- 创建日期:2026年5月14日
- 许可证:Creative Commons Attribution 4.0 International (CC BY 4.0)
- 关联文章:Substack文章
数据集内容与结构
该数据集是一个经过策展的国际电影语料库,聚焦以人工智能为主要剧情驱动力的故事片。每一条目均标注了电影描绘的未来类型以及AI的呈现方式,支持跨年代、跨地区、跨愿景的比较阅读。
仓库文件清单
| 文件 | 说明 |
|---|---|
corpus.json |
核心语料文件,包含169部电影条目和完整标注 |
corpus-viewer.html |
单文件浏览器查看器(无需服务器) |
codebook.md |
分类编码手册——未来取向(8类)和AI呈现(4类) |
schema.md |
JSON字段的完整描述 |
methodology.md |
语料库构建方法——包含纳入标准、来源、阶段、审计和分类法开发 |
futures-landscape.md |
未来分类法的学术背景:未来研究、科幻批评与AI叙事文献 |
bibliography.md |
参考书目,记录语料库及其分类法所依据的文献 |
LICENSE |
CC BY 4.0 许可证全文 |
CITATION.cff |
机器可读的引用元数据 |
数据分类体系
未来取向(8个类别)
电影所描绘的未来发展方向分类,详见 codebook.md。
AI呈现(4个类别)
电影中AI角色的呈现方式分类,详见 codebook.md。
使用方式
网页查看器
- 在浏览器中打开
corpus-viewer.html即可使用(需与corpus.json放在同一目录下) - 支持通过本地服务器运行,简单命令:
python3 -m http.server 8000 - 支持全文搜索、按国家/语言/年代/系列/未来取向/AI呈现过滤、标签和徽章的点击过滤、分类维度的悬停定义
- 在线版本:https://andrewmaynard.net/aimoviefutures/
直接使用JSON数据
语料库为单一JSON数组,每条记录遵循统一模式。例如,筛选被归类为“Protopia”的电影:
python import json with open(corpus.json) as f: corpus = json.load(f) protopia = [film for film in corpus if film.get(analyses, {}).get(futures_orientation, {}).get(primary) == Protopia]
引用方式
Maynard, Andrew (2026). AI-in-Films Corpus. Version 1.0. https://github.com/[username]/ai-in-films-corpus
现状与局限性
- 覆盖范围:基于公开可获取的资料整理,覆盖范围比典型的英文列表更广,但并非穷尽式收录,欢迎补充遗漏影片
- 分类判断:分类是基于文档化编码手册的解释性判断,不同分析者对特定影片可能有合理分歧;每条记录的
justification字段提供了判断依据 - 未来取向分类侧重:分类关注AI在电影中使未来变得可辨识的轨迹,而非严格的结果状态
- 文献引用:
critical_context字段指向每部电影最相关的学术文献,但应作为参考指南而非验证性引用列表 - 错误声明:由于使用了Claude协助开发,可能存在错误,请谨慎使用
贡献与修正
该语料库仅会不定期更新,欢迎在此基础上进行复制和扩展。
搜集汇总
数据集介绍

构建方式
AI-in-Films Corpus是一个精心策划的国际电影语料库,涵盖了1927年至2026年间以人工智能为核心剧情驱动力的169部剧情片。该语料库由Andrew Maynard主导,借助Claude Code中的Opus 4.7 Max模型辅助构建,通过多阶段的系统性筛选与分类编码而成。构建过程中,团队成员依据详尽的入选标准,从公开可得的电影资源中广泛搜罗,并经过反复审计与分类学开发,最终形成了包含31个国家、21种语言的丰富数据集。每部电影均被标注了其所描绘的未来类型以及AI在其中被呈现的方式,支持跨年代、跨区域以及不同人类前景愿景的比较阅读。
使用方法
使用者可通过两种方式与语料库交互。其一为直接利用附带的单文件浏览器corpus-viewer.html,将其与corpus.json一同部署于本地服务器(如通过python3 -m http.server 8000启动),打开浏览器即可实现全文搜索、按国家、语言、年代、系列、未来取向及AI描绘进行筛选过滤,并享有对分类维度的悬停定义提示功能。其二为直接以编程方式操作JSON数据,例如利用Python载入corpus.json后,可依据电影分析字段中的未来取向或AI描绘等标注维度进行灵活查询,实现定制化的统计分析与研究探索。
背景与挑战
背景概述
AI-in-Films Corpus是由Andrew Maynard主导,于2026年创建的一个国际化电影语料库,收录了1927年至2026年间169部以人工智能为核心剧情驱动的故事片。该语料库涵盖了31个国家和21种语言,其核心研究问题在于探究电影如何描绘人工智能以及所呈现的未来图景类型,旨在支持跨年代、跨地域及不同人类前景视角下的比较阅读。作为系统性分析银幕上人工智能叙事的基准资源,该语料库为科幻电影批评、未来学及人机交互等交叉领域提供了宝贵的结构化数据,推动了相关学术讨论的深化。
当前挑战
在领域问题层面,该语料库致力于应对人工智能电影叙事分析中缺乏标准化分类体系的挑战,通过对未来倾向(8类)与AI形象(4类)的二维编解码,使模糊的叙事主题变得可比较。构建过程中,分类判断的主观性构成主要挑战——由于不同分析者对接近类别边界的影片可能持有合理异议,语料库通过为每部电影提供详细分类理由来提升可审验性。此外,从公开来源收录影片导致覆盖面虽广却未必详尽,且基于Claude等工具辅助开发可能引入潜在误差,因此需使用者谨慎对待。
常用场景
经典使用场景
在数字人文与电影研究的交叉领域中,AI-in-Films Corpus为学者提供了一套横跨百年(1927–2026)、覆盖31国21语言的169部影片标注数据集。其经典使用场景在于通过结构化编码揭示科幻电影中人工智能形象的时空演变规律——研究者可依据未来导向(八类)与AI刻画(四类)双重分类体系,对不同年代、地域及文化语境下的银幕AI叙事进行量化比较与质化解读,从而超越单一文本分析,从宏观脉络把握人类对技术未来的集体想象。
解决学术问题
该数据集有效回应了电影研究中长期存在的两大难题:一是缺乏跨文化、跨时代的系统性电影语料库支持大规模比较分析;二是对AI叙事中隐含的社会态度与未来观念缺乏可操作性的分类框架。通过提供统一编码标准与可复现的标注逻辑,AI-in-Films Corpus使得研究者能够追踪从乌托邦到反乌托邦、从工具性AI到具有主体性AI的变迁路径,进而探讨银幕叙事如何反映并塑造公众对人工智能的认知与伦理关切,其意义在于为科技人文研究奠定了量化-质化融合的分析基石。
实际应用
在实践层面,该数据集可直接服务于科技传播策略制定与影视内容策划。例如,科技政策研究者可借助语料库分析不同时期AI电影所传递的风险信号,从而评估公众对自主系统的接受度变化趋势;影视从业者则能通过筛选特定未来导向或AI刻画类型的影片清单,挖掘未被充分呈现的叙事空间,启发更具预见性的剧本创作。此外,教育领域可利用其可视化交互界面开展媒介素养课程,引导学生审视流行文化中技术叙事的建构逻辑。
数据集最近研究
最新研究方向
AI-in-Films Corpus作为首个跨越百年(1927-2026)、覆盖31国21语言的AI主题电影注释语料库,其最新研究方向聚焦于通过系统化的未来导向(8类)与AI形象刻画(4类)分类体系,解构电影叙事中AI从反乌托邦到原型乌托邦的多元想象图谱。该数据集深度关联2026年前后全球AI伦理治理与公众认知的激烈讨论——当大语言模型、具身智能等突破性技术引发社会焦虑时,语料库揭示了电影如何以隐喻方式预演技术与人性的张力,其跨年代、跨文化比较分析为理解AI社会接受度的演化轨迹提供了量化工具。特别值得注意的是,基于该语料库的统计显示原型乌托邦类电影占比显著升高,这一发现不仅修正了学界长期持有的'AI电影普遍悲观论',更推动研究范式从文本分析转向计算叙事学与未来学交叉领域,为预测公众对强人工智的态度演变、指导负责任的技术传播策略提供了数据驱动的认识论基础。
以上内容由遇见数据集搜集并总结生成



