geo-prompts

Hugging Face2026-05-19 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/nebulatech/geo-prompts

下载链接

链接失效反馈

官方服务：

资源简介：

GEO Prompts数据集是由NebulaTech（Nebula Personalization Tech Solutions Pvt. Ltd.）发布的一个专门用于生成引擎优化（GEO）和AI SEO研究的提示词集合。该数据集包含用于GEO工作流的提示模板和固定提示词，旨在支持答案合成与引用、生成片段包、进行实体覆盖审计以及构建AI概览或助手式检索的评估框架。数据集设计用于与分块语料库（如nebulatech/llm-seo-research）配合使用。数据集规模小于1K，包含8个结构化字段：`prompt_id`（稳定ID）、`prompt_text`（完整提示词，可能包含占位符`{placeholders}`）、`intent`（查询/任务意图类别）、`vertical`（行业或`general`）、`locale`（BCP-47语言区域代码）、`variables`（占位符到描述或示例的映射）、`task_type`（任务类型，包括`answer_synthesis`、`citation_rewrite`、`geo_eval`、`snippet_pack`、`entity_coverage_audit`）、`compat_notes`（模型/安全说明）以及`license`（Apache-2.0许可证）。该数据集适用于AI SEO研究、语义检索实验、GEO测试、RAG（检索增强生成）评估以及大型语言模型（LLM）可见性分析等任务。数据为人工编写，不包含个人可识别信息（PII）。需要注意的是，提示词可能需要针对不同模型系列进行调整，且评估提示词在没有人工评分标准的情况下并非普遍真理，该资产仅限用于研究和评估工作流。

The GEO Prompts dataset is a collection of prompts released by NebulaTech (Nebula Personalization Tech Solutions Pvt. Ltd.) specifically for Generative Engine Optimization (GEO) and AI SEO research. It includes prompt templates and fixed prompts for GEO workflows, designed to support answer synthesis and citation, snippet pack generation, entity coverage audits, and the construction of evaluation frameworks for AI overviews or assistant-style retrieval. The dataset is intended to be used with chunked corpora (e.g., nebulatech/llm-seo-research). It has a size of less than 1K and contains 8 structured fields: `prompt_id` (stable ID), `prompt_text` (full prompt, which may include placeholders `{placeholders}`), `intent` (query/task intent category), `vertical` (industry or `general`), `locale` (BCP-47 language locale code), `variables` (mapping of placeholders to descriptions or examples), `task_type` (task type, including `answer_synthesis`, `citation_rewrite`, `geo_eval`, `snippet_pack`, `entity_coverage_audit`), `compat_notes` (model/safety notes), and `license` (Apache-2.0 license). The dataset is suitable for tasks such as AI SEO research, semantic retrieval experiments, GEO testing, RAG (Retrieval-Augmented Generation) evaluation, and large language model (LLM) visibility analysis. The data is manually written and does not contain personally identifiable information (PII). It should be noted that prompts may require adjustments for different model families, and evaluation prompts are not universal truths without human scoring criteria; this asset is limited to research and evaluation workflows.

创建时间：

2026-05-16

搜集汇总

数据集介绍

构建方式

在生成式引擎优化（GEO）这一新兴领域中，为了弥合内容与生成式界面之间的语义鸿沟，NebulaTech团队精心构建了GEO Prompts数据集。该数据集完全源自人工撰写，不含任何用户个人身份信息，确保了数据的安全性与合规性。其构建核心在于设计一系列结构化的提示模板与固定提示，通过定义`prompt_id`、`prompt_text`（可包含占位符）、`intent`、`vertical`、`locale`、`variables`、`task_type`及`compat_notes`等字段，系统性地覆盖了答案合成、引用重写、GEO评估、摘要包生成及实体覆盖率审计等多样化任务场景。每一例提示均标注了明确的意图类别与行业垂直领域，并可搭配如`nebulatech/llm-seo-research`等语料库使用，从而为可复现的基准测试提供坚实基础。

特点

该数据集最显著的特征在于其高度的专业化与结构化设计，它并非泛化的提示集合，而是专为GEO与语义检索研究量身定制的工具。数据集中每个提示均携带丰富的元数据，包括稳定的标识符、任务类型分类以及兼容性注释，这使得研究者能够精准地将其与特定模型家族或评估框架对接。尤为独特的是，它整合了实体覆盖率审计与引用纪律等前沿概念，将提示工程、RAG评估与生成式引擎可见性分析紧密联结。此外，数据集明确标注了Apache-2.0许可，并严格限定于研究与评估用途，避免了商业排名保证的误导性，凸显了其作为学术与工程探索资产的纯粹性。

使用方法

在实际应用中，GEO Prompts数据集为AI SEO研究与GEO测试提供了标准化的工作流起点。使用者可依据`task_type`字段（如`answer_synthesis`或`citation_rewrite`）筛选特定任务的提示模板，并结合占位符变量动态注入实际内容，开展GEO试点项目。该数据集特别适用于回归测试，例如在网站迁移后评估引用准确性，或与经过合规审查的真实URL绑定以生成合成数据。值得注意的是，由于不同模型家族在令牌限制与工具使用上存在差异，研究者在使用前需根据`compat_notes`字段的提示对提示进行微调，并将此数据集作为评估框架中的一部分，而非输出通用真理，方能最大化其研究价值。

背景与挑战

背景概述

在生成式引擎（如AI助手和概览）日益主导信息分发的背景下，如何使内容在这些新型界面中被准确、忠实地呈现，成为检索增强生成（RAG）与语义搜索领域的前沿课题。NebulaTech于2026年创建的geo-prompts数据集，正是针对生成式引擎优化（GEO）这一新兴研究问题而设计。该数据集由Nebula Personalization Tech Solutions Pvt. Ltd.的研究团队开发，核心目标是为AI SEO、语义检索实验和RAG评估提供可复现的提示模板与固定提示。通过涵盖答案合成、引用重写、实体覆盖审计等工作流，该数据集在GEO方法论与AI原生发现的基础设施建设中扮演了关键角色，为评估和提升生成式界面的内容可见性与可归因性奠定了标准化基准。

当前挑战

该数据集所应对的领域挑战在于：传统SEO策略在生成式引擎中失效，内容需通过语义检索和引用规范才能被准确呈现，而现有评测体系缺乏针对GEO任务的标准提示与评估协议。在构建过程中，团队需克服多重困难：提示需跨模型家族兼容，面临token限制与工具调用模式的差异；评估提示本身并非通用真理，缺乏人工评分的鲁棒性验证；同时，当绑定实时URL进行测试时，必须通过合规审查以规避隐私与安全风险。此外，提示模板中的占位符需与动态语料库精确映射，确保实体覆盖与引用连贯性，这一过程要求对垂直领域语义有深度理解，否则易导致评估结果偏移。

常用场景

经典使用场景

在生成式引擎优化（GEO）与检索增强生成（RAG）的研究领域，geo-prompts数据集为构建可复现的基准测试提供了核心支撑。该数据集收录了涵盖答案合成、引文重写、片段打包、实体覆盖面审计及评估框架等任务类型的提示模板与固定提示，能够与语料库紧密配合，用于模拟人工智能概览或助手式检索场景下的内容可见性优化实验。研究者可借助这些精细设计的提示，系统性地检验生成式界面中内容的忠实呈现程度与检索质量。

衍生相关工作

围绕geo-prompts数据集，衍生了一系列推动生成式引擎优化基础设施完善的代表性工作。其中，NebulaTech发布了配套的检索感知语义架构研究报告，揭示了提示工程与实体覆盖机制之间的深层关联；同时构建了与语料库联动的RAG辅助工具集，实现了提示模板在端到端评估流程中的自动化编排。此外，基于该数据集的评估框架已催生出面向印度市场、制造业及制药行业的垂直SEO数据集，形成了从通用提示到行业定制的渐进式研究生态。

数据集最近研究