geo-citation-lab
收藏github2026-05-01 更新2026-04-23 收录
下载链接:
https://github.com/yaojingang/geo-citation-lab
下载链接
链接失效反馈官方服务:
资源简介:
一套面向 `ChatGPT`、`Google AI Overview / Gemini`、`Perplexity` 的 GEO 研究资料库,用来回答三个实际问题:什么样的问题最容易触发 AI 去联网搜索?AI 搜索最爱选什么样的来源网站?什么样的页面会被 AI 深度吸收,而不只是“挂名引用”?这份仓库不是泛泛而谈的 GEO 观点集,而是一份基于真实问答、真实引用、真实页面抓取结果做出来的研究快照。
A GEO research database focused on ChatGPT, Google AI Overview / Gemini, and Perplexity, dedicated to researching how AI search engines select and utilize citations. It encompasses 602 experimental prompts, 21,143 search-layer citation records, 18,151 successfully crawled web pages, 23,745 citation-level records, as well as a 72-dimensional feature table.
创建时间:
2026-04-21
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称:Overseas GEO Research
- 数据集地址:https://github.com/yaojingang/geo-citation-lab
- 研究目的:研究面向AI搜索平台(ChatGPT、Google AI Overview / Gemini、Perplexity)的GEO(生成式引擎优化)问题,具体探究:
- 什么样的问题最容易触发AI去联网搜索?
- AI搜索最爱选什么样的来源网站?
- 什么样的页面会被AI深度吸收,而不只是“挂名引用”?
- 数据性质:基于真实问答、真实引用、真实页面抓取结果的研究快照。
数据规模与实验设计
- 设计Prompt总数:602条。
- 实验分层设计:
A层:432条主实验Prompt,系统控制任务类型、触发强度、时效性、行业与子任务。B层:60条风格对照Prompt,比较自然问法、要求来源、专家角色三种包装方式。C层:60条中英双语对照Prompt,观察不同语言环境下的搜索强度与信源偏好。D层:50条极端与真实场景Prompt,覆盖高风险、模糊、多约束和长决策型问题。
- 平台数量:3个(ChatGPT、Google、Perplexity)。
- 数据量:
- 搜索层原始结果行数(清洗后):21,181行。
- 搜索层有效引用行数:21,143行。
- 引用影响力特征行数:23,745行。
- 成功抓取的引用页面:18,151个。
- 抓取成功率:76.44%。
- 特征维度:72维。
核心研究发现
平台差异
| 平台 | 搜索触发率 | 平均每条Prompt引用数 | 单条引用平均影响力 |
|---|---|---|---|
| ChatGPT | 98.64%(579 / 587) | 6.88 | 0.2567 |
| 99.67%(600 / 602) | 12.06 | 0.0455 | |
| Perplexity | 100.00%(602 / 602) | 16.35 | 0.0548 |
- 结论:三个平台几乎都会触发搜索,但引用宽度差距显著。ChatGPT引用更少但更深,Google引用更广,Perplexity覆盖面最大。
触发与引用特征
- 风格实验(B层):要求来源的Prompt平均引用数最高(13.07),高于自然提问(12.35)。
- 语言实验(C层):英文Prompt整体平均引用数(11.68)高于中文Prompt(10.41);Google上差异更大(11.57 vs 7.53)。
- 场景实验(D层):模糊问题的平均引用数最低(9.97);长决策型问题最高(13.70)。
信源偏好
- 网站类型:三个平台引用的网站中,
官网 + 新闻 + 行业垂类占比达到79.12% - 87.52%。 - 地域与语言:在可识别国家中,
US来源占比达82.70% - 86.76%;在可识别语言中,英文来源占比达82.90% - 95.07%。 - 域名权威度:被引用来源的中位
Final_DR落在526 - 592,高权威域名显著占优。
页面内容影响力
- 页面长度:影响力Top四分位页面平均
1,943词,Bottom四分位仅170词,长度差达11.4x。 - 页面结构:Top四分位页面平均
10.59个标题、47.49个段落,显著高于Bottom四分位的0.85和8.34。 - 语义相关性:最强的独立预测因子是
llm_relevance_score,与影响力相关系数r = 0.432。 - 内容类型影响:
- 含数字、定义、对比、步骤的页面影响力显著更强,平均提升分别为
+61.6%、+57.3%、+55.3%、+41.2%。 - 纯问答格式(Q&A)页面平均影响力比非Q&A页面低
5.7%。
- 含数字、定义、对比、步骤的页面影响力显著更强,平均提升分别为
数据集结构
| 路径 | 作用 |
|---|---|
01-prompt/ |
602条实验Prompt。 |
02-data/ |
搜索层CSV与72维特征CSV。 |
03-pipeline/ |
解析、抓取、特征提取、分析脚本。 |
04-repet/ |
完整研究报告及图表。 |
05-kami-report/ |
更适合展示/分享的摘要PDF。 |
QUICK_REPORT.md |
给普通用户的3分钟速读版。 |
关键文件说明
- 长版HTML报告:
https://github.com/yaojingang/geo-citation-lab/blob/main/04-repet/final_report.html - 长版Markdown报告:
https://github.com/yaojingang/geo-citation-lab/blob/main/04-repet/final_report.md - PDF版报告:
https://github.com/yaojingang/geo-citation-lab/blob/main/04-repet/final_report.pdf - 3分钟摘要:
https://github.com/yaojingang/geo-citation-lab/blob/main/QUICK_REPORT.md - 72维特征数据表:
https://github.com/yaojingang/geo-citation-lab/blob/main/02-data/features_all_platforms_72.csv - 更适合分享的摘要PDF:
https://github.com/yaojingang/geo-citation-lab/blob/main/05-kami-report/kami_geo_research_summary_report.pdf
数据说明与已知注意事项
chatgpt_results_with_prompt.csv原始文件中混入了16行重复表头,统计时需要先清洗。- ChatGPT搜索层的
A_news、A_technology在原始文件里命名为Anews*、Atechnology*,需要先做命名归一化。 - ChatGPT搜索层清洗后覆盖
587个Prompt,仍缺15个Prompt输出。 国家(Country)和语言(Language)字段中存在大量unknown或WW,地区/语言占比分析需基于“可识别样本口径”。网站类型字段中存在少量噪声值(如成功),公开版建议再做标准化。- 数据集为静态研究快照,未给每条记录附统一采集时间戳,不适合用于实时监控。
目标用户
- 想理解GEO底层逻辑的内容策略、SEO、品牌投放人员。
- 想研究AI搜索引用机制的分析师或研究者。
- 想基于真实数据做二次分析、二次可视化或公开展示的开发者。
搜集汇总
数据集介绍

构建方式
在人工智能搜索与引用行为研究领域,geo-citation-lab数据集通过精心设计的四层实验框架构建而成。研究团队首先设计了总计602条提示词,并系统性地将其划分为A、B、C、D四个层次。A层作为主实验,包含432条提示词,用以控制任务类型、触发强度等核心变量;B层则设置了60条风格对照提示词,用于比较不同提问方式的影响;C层包含60条中英双语对照提示词,旨在观察语言环境差异;D层则聚焦于50条极端与真实场景提示词。这些提示词被分别输入至ChatGPT、Google AI Overview/Gemini以及Perplexity三个主流AI搜索平台,从而采集了超过21,000条原始搜索与引用记录。随后,研究团队对引用的网页进行了大规模抓取,成功获取了超过18,000个页面,并从中提取了72个维度的特征,最终形成了包含23,745条记录的特征表,为深入分析提供了坚实的数据基础。
使用方法
对于希望利用该数据集的研究者或分析师,建议遵循由浅入深的路径展开探索。初次接触者可首先阅读QUICK_REPORT.md文件,以快速把握研究的核心结论与数据概貌。若需深入理解实验设计、分析过程与详细论证,则应研读04-repet目录下的完整研究报告。数据集的核心文件features_all_platforms_72.csv包含了72维的特征数据,用户可直接加载此文件,并利用Pandas等工具进行筛选、统计与可视化分析,以验证特定假设或发现新规律。此外,仓库中提供的03-pipeline目录下的Python脚本(如citation_features.py)完整公开了特征提取与影响力分析的计算逻辑,用户既可复用这些方法,也可基于原始数据开发新的分析模型,从而推动对生成式搜索引擎优化机制的进一步研究。
背景与挑战
背景概述
在人工智能与信息检索交叉领域,生成式搜索引擎优化(GEO)正成为新兴的研究焦点。数据集geo-citation-lab由张凯主导研究,姚金刚进行二次报告解读与开源整理,于近期发布,旨在系统探究大型语言模型驱动的AI搜索平台的引用行为机制。该数据集围绕三个核心研究问题展开:何种问题最易触发AI联网搜索、AI搜索偏好的信源网站类型,以及哪些页面内容会被深度吸收而非表面引用。通过设计602条结构化Prompt,在ChatGPT、Google AI Overview/Gemini和Perplexity三个平台上进行大规模实验,生成了超过两万条引用记录与七十二维特征数据,为理解AI搜索的决策逻辑与内容评估标准提供了实证基础,对优化信息检索策略与内容生成具有重要参考价值。
当前挑战
该数据集致力于揭示AI搜索引用行为的复杂模式,其核心挑战在于解析多变量环境下搜索触发与内容吸收的动态关联。构建过程中面临多重困难:首先,需设计覆盖不同任务类型、语言风格与场景的Prompt集合,以控制系统性偏差;其次,从异构平台采集数据时,需处理命名不一致、重复表头等噪声,并应对部分Prompt输出缺失的问题。此外,特征提取涉及页面抓取与语义分析,在引用网页的国家、语言识别中存在大量未知值,影响了统计口径的完整性。这些挑战要求研究者在数据清洗、特征工程与结果解释中保持严谨,以保障结论的可靠性与泛化能力。
常用场景
经典使用场景
在人工智能与信息检索交叉领域,geo-citation-lab数据集为探究生成式AI的联网搜索行为提供了实证基础。该数据集通过系统设计的602条Prompt,在ChatGPT、Google AI Overview/Gemini、Perplexity三大平台上触发搜索,并记录超过两万条引用记录,进而抓取并分析引用页面的多维特征。其经典使用场景在于量化分析不同AI平台在响应各类查询时的搜索触发概率、引用广度与深度差异,以及识别影响引用选择与内容吸收的关键页面特征,为理解AI搜索的底层机制提供了结构化观测框架。
解决学术问题
该数据集致力于解决信息检索与计算社会科学中的若干核心问题,特别是生成式AI在知识整合过程中的信源选择偏好与内容吸收机制。它通过可控实验剥离了Prompt设计、平台策略、页面权威度、语义相关性等多重变量的影响,实证揭示了AI搜索并非均匀覆盖网络信息,而是显著倾向于权威域名、结构化内容及高语义相关页面。这为评估AI生成内容的可靠性与偏差提供了数据支撑,并推动了关于AI辅助决策中信息溯源与可信度评估的学术讨论。
实际应用
在实践层面,geo-citation-lab数据集为内容策略优化、搜索引擎优化(SEO)以及品牌数字影响力建设提供了直接参考。内容创作者可依据其发现的页面特征——如包含数字、定义、对比和步骤的长篇结构化内容更易被AI深度引用——来调整生产策略,提升内容在AI生成答案中的可见性与影响力。同时,营销与公关人员可借助其对平台引用偏好的分析,在不同AI生态中针对性部署信息源,以塑造或维护品牌在AI生成内容中的叙事。
数据集最近研究
最新研究方向
在生成式人工智能与搜索引擎优化交叉领域,geo-citation-lab数据集为探索AI驱动的信息检索行为提供了实证基础。该数据集通过系统化实验设计,揭示了ChatGPT、Google AI Overview/Gemini及Perplexity等平台在联网搜索触发机制、信源选择偏好与内容吸收深度方面的差异。当前研究聚焦于多模态提示工程对AI引用行为的影响,深入分析页面结构特征、语义相关性及内容类型如何塑造引用影响力。热点议题包括跨语言查询下的信源偏差、高权威域名的持续优势,以及结构化数据(如数字、定义、对比列表)对AI知识吸收的增强作用。这些发现不仅为优化内容策略提供了数据支撑,也推动了关于AI透明度与信息生态系统的学术讨论,对数字营销、可信人工智能及信息检索系统的设计具有重要参考价值。
以上内容由遇见数据集搜集并总结生成



