geo-citation-lab

github2026-05-01 更新2026-04-23 收录

下载链接：

https://github.com/yaojingang/geo-citation-lab

下载链接

链接失效反馈

官方服务：

资源简介：

一套面向 `ChatGPT`、`Google AI Overview / Gemini`、`Perplexity` 的 GEO 研究资料库，用来回答三个实际问题：什么样的问题最容易触发 AI 去联网搜索？AI 搜索最爱选什么样的来源网站？什么样的页面会被 AI 深度吸收，而不只是“挂名引用”？这份仓库不是泛泛而谈的 GEO 观点集，而是一份基于真实问答、真实引用、真实页面抓取结果做出来的研究快照。

A GEO research database focused on ChatGPT, Google AI Overview / Gemini, and Perplexity, dedicated to researching how AI search engines select and utilize citations. It encompasses 602 experimental prompts, 21,143 search-layer citation records, 18,151 successfully crawled web pages, 23,745 citation-level records, as well as a 72-dimensional feature table.

创建时间：

2026-04-21

原始信息汇总

数据集概述

数据集基本信息

数据集名称：Overseas GEO Research
数据集地址：https://github.com/yaojingang/geo-citation-lab
研究目的：研究面向AI搜索平台（ChatGPT、Google AI Overview / Gemini、Perplexity）的GEO（生成式引擎优化）问题，具体探究：
1. 什么样的问题最容易触发AI去联网搜索？
2. AI搜索最爱选什么样的来源网站？
3. 什么样的页面会被AI深度吸收，而不只是“挂名引用”？
数据性质：基于真实问答、真实引用、真实页面抓取结果的研究快照。

数据规模与实验设计

设计Prompt总数：602条。
实验分层设计：
- A层：432条主实验Prompt，系统控制任务类型、触发强度、时效性、行业与子任务。
- B层：60条风格对照Prompt，比较自然问法、要求来源、专家角色三种包装方式。
- C层：60条中英双语对照Prompt，观察不同语言环境下的搜索强度与信源偏好。
- D层：50条极端与真实场景Prompt，覆盖高风险、模糊、多约束和长决策型问题。
平台数量：3个（ChatGPT、Google、Perplexity）。
数据量：
- 搜索层原始结果行数（清洗后）：21,181行。
- 搜索层有效引用行数：21,143行。
- 引用影响力特征行数：23,745行。
- 成功抓取的引用页面：18,151个。
- 抓取成功率：76.44%。
特征维度：72维。

核心研究发现

平台差异

平台	搜索触发率	平均每条Prompt引用数	单条引用平均影响力
ChatGPT	98.64%（579 / 587）	6.88	0.2567
Google	99.67%（600 / 602）	12.06	0.0455
Perplexity	100.00%（602 / 602）	16.35	0.0548

结论：三个平台几乎都会触发搜索，但引用宽度差距显著。ChatGPT引用更少但更深，Google引用更广，Perplexity覆盖面最大。

触发与引用特征

风格实验（B层）：要求来源的Prompt平均引用数最高（13.07），高于自然提问（12.35）。
语言实验（C层）：英文Prompt整体平均引用数（11.68）高于中文Prompt（10.41）；Google上差异更大（11.57 vs 7.53）。
场景实验（D层）：模糊问题的平均引用数最低（9.97）；长决策型问题最高（13.70）。

信源偏好

网站类型：三个平台引用的网站中，官网 + 新闻 + 行业垂类 占比达到 79.12% - 87.52%。
地域与语言：在可识别国家中，US来源占比达 82.70% - 86.76%；在可识别语言中，英文来源占比达 82.90% - 95.07%。
域名权威度：被引用来源的中位 Final_DR 落在 526 - 592，高权威域名显著占优。

页面内容影响力

页面长度：影响力Top四分位页面平均 1,943 词，Bottom四分位仅 170 词，长度差达 11.4x。
页面结构：Top四分位页面平均 10.59 个标题、47.49 个段落，显著高于Bottom四分位的 0.85 和 8.34。
语义相关性：最强的独立预测因子是 llm_relevance_score，与影响力相关系数 r = 0.432。
内容类型影响：
- 含数字、定义、对比、步骤的页面影响力显著更强，平均提升分别为 +61.6%、+57.3%、+55.3%、+41.2%。
- 纯问答格式（Q&A）页面平均影响力比非Q&A页面低 5.7%。

数据集结构

路径	作用
`01-prompt/`	602条实验Prompt。
`02-data/`	搜索层CSV与72维特征CSV。
`03-pipeline/`	解析、抓取、特征提取、分析脚本。
`04-repet/`	完整研究报告及图表。
`05-kami-report/`	更适合展示/分享的摘要PDF。
`QUICK_REPORT.md`	给普通用户的3分钟速读版。

关键文件说明

长版HTML报告：https://github.com/yaojingang/geo-citation-lab/blob/main/04-repet/final_report.html
长版Markdown报告：https://github.com/yaojingang/geo-citation-lab/blob/main/04-repet/final_report.md
PDF版报告：https://github.com/yaojingang/geo-citation-lab/blob/main/04-repet/final_report.pdf
3分钟摘要：https://github.com/yaojingang/geo-citation-lab/blob/main/QUICK_REPORT.md
72维特征数据表：https://github.com/yaojingang/geo-citation-lab/blob/main/02-data/features_all_platforms_72.csv
更适合分享的摘要PDF：https://github.com/yaojingang/geo-citation-lab/blob/main/05-kami-report/kami_geo_research_summary_report.pdf

数据说明与已知注意事项

chatgpt_results_with_prompt.csv 原始文件中混入了 16 行重复表头，统计时需要先清洗。
ChatGPT搜索层的 A_news、A_technology 在原始文件里命名为 Anews*、Atechnology*，需要先做命名归一化。
ChatGPT搜索层清洗后覆盖 587 个Prompt，仍缺 15 个Prompt输出。
国家(Country) 和 语言(Language) 字段中存在大量 unknown 或 WW，地区/语言占比分析需基于“可识别样本口径”。
网站类型 字段中存在少量噪声值（如 成功），公开版建议再做标准化。
数据集为静态研究快照，未给每条记录附统一采集时间戳，不适合用于实时监控。

目标用户

想理解GEO底层逻辑的内容策略、SEO、品牌投放人员。
想研究AI搜索引用机制的分析师或研究者。
想基于真实数据做二次分析、二次可视化或公开展示的开发者。

搜集汇总

数据集介绍

构建方式

在人工智能搜索与引用行为研究领域，geo-citation-lab数据集通过精心设计的四层实验框架构建而成。研究团队首先设计了总计602条提示词，并系统性地将其划分为A、B、C、D四个层次。A层作为主实验，包含432条提示词，用以控制任务类型、触发强度等核心变量；B层则设置了60条风格对照提示词，用于比较不同提问方式的影响；C层包含60条中英双语对照提示词，旨在观察语言环境差异；D层则聚焦于50条极端与真实场景提示词。这些提示词被分别输入至ChatGPT、Google AI Overview/Gemini以及Perplexity三个主流AI搜索平台，从而采集了超过21,000条原始搜索与引用记录。随后，研究团队对引用的网页进行了大规模抓取，成功获取了超过18,000个页面，并从中提取了72个维度的特征，最终形成了包含23,745条记录的特征表，为深入分析提供了坚实的数据基础。

使用方法

对于希望利用该数据集的研究者或分析师，建议遵循由浅入深的路径展开探索。初次接触者可首先阅读QUICK_REPORT.md文件，以快速把握研究的核心结论与数据概貌。若需深入理解实验设计、分析过程与详细论证，则应研读04-repet目录下的完整研究报告。数据集的核心文件features_all_platforms_72.csv包含了72维的特征数据，用户可直接加载此文件，并利用Pandas等工具进行筛选、统计与可视化分析，以验证特定假设或发现新规律。此外，仓库中提供的03-pipeline目录下的Python脚本（如citation_features.py）完整公开了特征提取与影响力分析的计算逻辑，用户既可复用这些方法，也可基于原始数据开发新的分析模型，从而推动对生成式搜索引擎优化机制的进一步研究。

背景与挑战

背景概述

在人工智能与信息检索交叉领域，生成式搜索引擎优化（GEO）正成为新兴的研究焦点。数据集geo-citation-lab由张凯主导研究，姚金刚进行二次报告解读与开源整理，于近期发布，旨在系统探究大型语言模型驱动的AI搜索平台的引用行为机制。该数据集围绕三个核心研究问题展开：何种问题最易触发AI联网搜索、AI搜索偏好的信源网站类型，以及哪些页面内容会被深度吸收而非表面引用。通过设计602条结构化Prompt，在ChatGPT、Google AI Overview/Gemini和Perplexity三个平台上进行大规模实验，生成了超过两万条引用记录与七十二维特征数据，为理解AI搜索的决策逻辑与内容评估标准提供了实证基础，对优化信息检索策略与内容生成具有重要参考价值。

当前挑战

该数据集致力于揭示AI搜索引用行为的复杂模式，其核心挑战在于解析多变量环境下搜索触发与内容吸收的动态关联。构建过程中面临多重困难：首先，需设计覆盖不同任务类型、语言风格与场景的Prompt集合，以控制系统性偏差；其次，从异构平台采集数据时，需处理命名不一致、重复表头等噪声，并应对部分Prompt输出缺失的问题。此外，特征提取涉及页面抓取与语义分析，在引用网页的国家、语言识别中存在大量未知值，影响了统计口径的完整性。这些挑战要求研究者在数据清洗、特征工程与结果解释中保持严谨，以保障结论的可靠性与泛化能力。

常用场景

经典使用场景

在人工智能与信息检索交叉领域，geo-citation-lab数据集为探究生成式AI的联网搜索行为提供了实证基础。该数据集通过系统设计的602条Prompt，在ChatGPT、Google AI Overview/Gemini、Perplexity三大平台上触发搜索，并记录超过两万条引用记录，进而抓取并分析引用页面的多维特征。其经典使用场景在于量化分析不同AI平台在响应各类查询时的搜索触发概率、引用广度与深度差异，以及识别影响引用选择与内容吸收的关键页面特征，为理解AI搜索的底层机制提供了结构化观测框架。

解决学术问题

该数据集致力于解决信息检索与计算社会科学中的若干核心问题，特别是生成式AI在知识整合过程中的信源选择偏好与内容吸收机制。它通过可控实验剥离了Prompt设计、平台策略、页面权威度、语义相关性等多重变量的影响，实证揭示了AI搜索并非均匀覆盖网络信息，而是显著倾向于权威域名、结构化内容及高语义相关页面。这为评估AI生成内容的可靠性与偏差提供了数据支撑，并推动了关于AI辅助决策中信息溯源与可信度评估的学术讨论。

实际应用

在实践层面，geo-citation-lab数据集为内容策略优化、搜索引擎优化（SEO）以及品牌数字影响力建设提供了直接参考。内容创作者可依据其发现的页面特征——如包含数字、定义、对比和步骤的长篇结构化内容更易被AI深度引用——来调整生产策略，提升内容在AI生成答案中的可见性与影响力。同时，营销与公关人员可借助其对平台引用偏好的分析，在不同AI生态中针对性部署信息源，以塑造或维护品牌在AI生成内容中的叙事。

数据集最近研究