five

geo-citation-lab

收藏
github2026-05-01 更新2026-04-23 收录
下载链接:
https://github.com/yaojingang/geo-citation-lab
下载链接
链接失效反馈
官方服务:
资源简介:
一套面向 `ChatGPT`、`Google AI Overview / Gemini`、`Perplexity` 的 GEO 研究资料库,用来回答三个实际问题:什么样的问题最容易触发 AI 去联网搜索?AI 搜索最爱选什么样的来源网站?什么样的页面会被 AI 深度吸收,而不只是“挂名引用”?这份仓库不是泛泛而谈的 GEO 观点集,而是一份基于真实问答、真实引用、真实页面抓取结果做出来的研究快照。

A GEO research database focused on ChatGPT, Google AI Overview / Gemini, and Perplexity, dedicated to researching how AI search engines select and utilize citations. It encompasses 602 experimental prompts, 21,143 search-layer citation records, 18,151 successfully crawled web pages, 23,745 citation-level records, as well as a 72-dimensional feature table.
创建时间:
2026-04-21
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称:Overseas GEO Research
  • 数据集地址:https://github.com/yaojingang/geo-citation-lab
  • 研究目的:研究面向AI搜索平台(ChatGPT、Google AI Overview / Gemini、Perplexity)的GEO(生成式引擎优化)问题,具体探究:
    1. 什么样的问题最容易触发AI去联网搜索?
    2. AI搜索最爱选什么样的来源网站?
    3. 什么样的页面会被AI深度吸收,而不只是“挂名引用”?
  • 数据性质:基于真实问答、真实引用、真实页面抓取结果的研究快照。

数据规模与实验设计

  • 设计Prompt总数:602条。
  • 实验分层设计
    • A层:432条主实验Prompt,系统控制任务类型、触发强度、时效性、行业与子任务。
    • B层:60条风格对照Prompt,比较自然问法、要求来源、专家角色三种包装方式。
    • C层:60条中英双语对照Prompt,观察不同语言环境下的搜索强度与信源偏好。
    • D层:50条极端与真实场景Prompt,覆盖高风险、模糊、多约束和长决策型问题。
  • 平台数量:3个(ChatGPT、Google、Perplexity)。
  • 数据量
    • 搜索层原始结果行数(清洗后):21,181行。
    • 搜索层有效引用行数:21,143行。
    • 引用影响力特征行数:23,745行。
    • 成功抓取的引用页面:18,151个。
    • 抓取成功率:76.44%。
  • 特征维度:72维。

核心研究发现

平台差异

平台 搜索触发率 平均每条Prompt引用数 单条引用平均影响力
ChatGPT 98.64%(579 / 587) 6.88 0.2567
Google 99.67%(600 / 602) 12.06 0.0455
Perplexity 100.00%(602 / 602) 16.35 0.0548
  • 结论:三个平台几乎都会触发搜索,但引用宽度差距显著。ChatGPT引用更少但更深,Google引用更广,Perplexity覆盖面最大。

触发与引用特征

  • 风格实验(B层):要求来源的Prompt平均引用数最高(13.07),高于自然提问(12.35)。
  • 语言实验(C层):英文Prompt整体平均引用数(11.68)高于中文Prompt(10.41);Google上差异更大(11.57 vs 7.53)。
  • 场景实验(D层):模糊问题的平均引用数最低(9.97);长决策型问题最高(13.70)。

信源偏好

  • 网站类型:三个平台引用的网站中,官网 + 新闻 + 行业垂类 占比达到 79.12% - 87.52%
  • 地域与语言:在可识别国家中,US来源占比达 82.70% - 86.76%;在可识别语言中,英文来源占比达 82.90% - 95.07%
  • 域名权威度:被引用来源的中位 Final_DR 落在 526 - 592,高权威域名显著占优。

页面内容影响力

  • 页面长度:影响力Top四分位页面平均 1,943 词,Bottom四分位仅 170 词,长度差达 11.4x
  • 页面结构:Top四分位页面平均 10.59 个标题、47.49 个段落,显著高于Bottom四分位的 0.858.34
  • 语义相关性:最强的独立预测因子是 llm_relevance_score,与影响力相关系数 r = 0.432
  • 内容类型影响
    • 含数字、定义、对比、步骤的页面影响力显著更强,平均提升分别为 +61.6%+57.3%+55.3%+41.2%
    • 纯问答格式(Q&A)页面平均影响力比非Q&A页面低 5.7%

数据集结构

路径 作用
01-prompt/ 602条实验Prompt。
02-data/ 搜索层CSV与72维特征CSV。
03-pipeline/ 解析、抓取、特征提取、分析脚本。
04-repet/ 完整研究报告及图表。
05-kami-report/ 更适合展示/分享的摘要PDF。
QUICK_REPORT.md 给普通用户的3分钟速读版。

关键文件说明

  • 长版HTML报告https://github.com/yaojingang/geo-citation-lab/blob/main/04-repet/final_report.html
  • 长版Markdown报告https://github.com/yaojingang/geo-citation-lab/blob/main/04-repet/final_report.md
  • PDF版报告https://github.com/yaojingang/geo-citation-lab/blob/main/04-repet/final_report.pdf
  • 3分钟摘要https://github.com/yaojingang/geo-citation-lab/blob/main/QUICK_REPORT.md
  • 72维特征数据表https://github.com/yaojingang/geo-citation-lab/blob/main/02-data/features_all_platforms_72.csv
  • 更适合分享的摘要PDFhttps://github.com/yaojingang/geo-citation-lab/blob/main/05-kami-report/kami_geo_research_summary_report.pdf

数据说明与已知注意事项

  • chatgpt_results_with_prompt.csv 原始文件中混入了 16 行重复表头,统计时需要先清洗。
  • ChatGPT搜索层的 A_newsA_technology 在原始文件里命名为 Anews*Atechnology*,需要先做命名归一化。
  • ChatGPT搜索层清洗后覆盖 587 个Prompt,仍缺 15 个Prompt输出。
  • 国家(Country)语言(Language) 字段中存在大量 unknownWW,地区/语言占比分析需基于“可识别样本口径”。
  • 网站类型 字段中存在少量噪声值(如 成功),公开版建议再做标准化。
  • 数据集为静态研究快照,未给每条记录附统一采集时间戳,不适合用于实时监控。

目标用户

  • 想理解GEO底层逻辑的内容策略、SEO、品牌投放人员。
  • 想研究AI搜索引用机制的分析师或研究者。
  • 想基于真实数据做二次分析、二次可视化或公开展示的开发者。
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能搜索与引用行为研究领域,geo-citation-lab数据集通过精心设计的四层实验框架构建而成。研究团队首先设计了总计602条提示词,并系统性地将其划分为A、B、C、D四个层次。A层作为主实验,包含432条提示词,用以控制任务类型、触发强度等核心变量;B层则设置了60条风格对照提示词,用于比较不同提问方式的影响;C层包含60条中英双语对照提示词,旨在观察语言环境差异;D层则聚焦于50条极端与真实场景提示词。这些提示词被分别输入至ChatGPT、Google AI Overview/Gemini以及Perplexity三个主流AI搜索平台,从而采集了超过21,000条原始搜索与引用记录。随后,研究团队对引用的网页进行了大规模抓取,成功获取了超过18,000个页面,并从中提取了72个维度的特征,最终形成了包含23,745条记录的特征表,为深入分析提供了坚实的数据基础。
使用方法
对于希望利用该数据集的研究者或分析师,建议遵循由浅入深的路径展开探索。初次接触者可首先阅读QUICK_REPORT.md文件,以快速把握研究的核心结论与数据概貌。若需深入理解实验设计、分析过程与详细论证,则应研读04-repet目录下的完整研究报告。数据集的核心文件features_all_platforms_72.csv包含了72维的特征数据,用户可直接加载此文件,并利用Pandas等工具进行筛选、统计与可视化分析,以验证特定假设或发现新规律。此外,仓库中提供的03-pipeline目录下的Python脚本(如citation_features.py)完整公开了特征提取与影响力分析的计算逻辑,用户既可复用这些方法,也可基于原始数据开发新的分析模型,从而推动对生成式搜索引擎优化机制的进一步研究。
背景与挑战
背景概述
在人工智能与信息检索交叉领域,生成式搜索引擎优化(GEO)正成为新兴的研究焦点。数据集geo-citation-lab由张凯主导研究,姚金刚进行二次报告解读与开源整理,于近期发布,旨在系统探究大型语言模型驱动的AI搜索平台的引用行为机制。该数据集围绕三个核心研究问题展开:何种问题最易触发AI联网搜索、AI搜索偏好的信源网站类型,以及哪些页面内容会被深度吸收而非表面引用。通过设计602条结构化Prompt,在ChatGPT、Google AI Overview/Gemini和Perplexity三个平台上进行大规模实验,生成了超过两万条引用记录与七十二维特征数据,为理解AI搜索的决策逻辑与内容评估标准提供了实证基础,对优化信息检索策略与内容生成具有重要参考价值。
当前挑战
该数据集致力于揭示AI搜索引用行为的复杂模式,其核心挑战在于解析多变量环境下搜索触发与内容吸收的动态关联。构建过程中面临多重困难:首先,需设计覆盖不同任务类型、语言风格与场景的Prompt集合,以控制系统性偏差;其次,从异构平台采集数据时,需处理命名不一致、重复表头等噪声,并应对部分Prompt输出缺失的问题。此外,特征提取涉及页面抓取与语义分析,在引用网页的国家、语言识别中存在大量未知值,影响了统计口径的完整性。这些挑战要求研究者在数据清洗、特征工程与结果解释中保持严谨,以保障结论的可靠性与泛化能力。
常用场景
经典使用场景
在人工智能与信息检索交叉领域,geo-citation-lab数据集为探究生成式AI的联网搜索行为提供了实证基础。该数据集通过系统设计的602条Prompt,在ChatGPT、Google AI Overview/Gemini、Perplexity三大平台上触发搜索,并记录超过两万条引用记录,进而抓取并分析引用页面的多维特征。其经典使用场景在于量化分析不同AI平台在响应各类查询时的搜索触发概率、引用广度与深度差异,以及识别影响引用选择与内容吸收的关键页面特征,为理解AI搜索的底层机制提供了结构化观测框架。
解决学术问题
该数据集致力于解决信息检索与计算社会科学中的若干核心问题,特别是生成式AI在知识整合过程中的信源选择偏好与内容吸收机制。它通过可控实验剥离了Prompt设计、平台策略、页面权威度、语义相关性等多重变量的影响,实证揭示了AI搜索并非均匀覆盖网络信息,而是显著倾向于权威域名、结构化内容及高语义相关页面。这为评估AI生成内容的可靠性与偏差提供了数据支撑,并推动了关于AI辅助决策中信息溯源与可信度评估的学术讨论。
实际应用
在实践层面,geo-citation-lab数据集为内容策略优化、搜索引擎优化(SEO)以及品牌数字影响力建设提供了直接参考。内容创作者可依据其发现的页面特征——如包含数字、定义、对比和步骤的长篇结构化内容更易被AI深度引用——来调整生产策略,提升内容在AI生成答案中的可见性与影响力。同时,营销与公关人员可借助其对平台引用偏好的分析,在不同AI生态中针对性部署信息源,以塑造或维护品牌在AI生成内容中的叙事。
数据集最近研究
最新研究方向
在生成式人工智能与搜索引擎优化交叉领域,geo-citation-lab数据集为探索AI驱动的信息检索行为提供了实证基础。该数据集通过系统化实验设计,揭示了ChatGPT、Google AI Overview/Gemini及Perplexity等平台在联网搜索触发机制、信源选择偏好与内容吸收深度方面的差异。当前研究聚焦于多模态提示工程对AI引用行为的影响,深入分析页面结构特征、语义相关性及内容类型如何塑造引用影响力。热点议题包括跨语言查询下的信源偏差、高权威域名的持续优势,以及结构化数据(如数字、定义、对比列表)对AI知识吸收的增强作用。这些发现不仅为优化内容策略提供了数据支撑,也推动了关于AI透明度与信息生态系统的学术讨论,对数字营销、可信人工智能及信息检索系统的设计具有重要参考价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作