global80_prompt-response-pairs

Hugging Face2025-10-27 更新2025-10-28 收录

下载链接：

https://huggingface.co/datasets/geometriqs/global80_prompt-response-pairs

下载链接

链接失效反馈

官方服务：

资源简介：

Geometriqs Global80提示-响应数据集包含了在GenAI Positioning Study: Global80研究中使用的全部提示-响应对。该数据集记录了针对80家世界最大公司的中性、比较性问题，三个领先的生成式AI平台（OpenAI ChatGPT、Google Gemini和Perplexity AI）如何响应这些问题。数据集的目的是测量模型行为，而非用户行为，即这些系统在回答类似自然语言问题时如何代表主要品牌。

创建时间：

2025-10-21

原始信息汇总

Geometriqs Global80 Prompt–Response Dataset 概述

数据集基本信息

许可证: CC BY 4.0
语言: 英语
数据集名称: Geometriqs Global80 GenAI Positioning Study Prompt/Reponse Pair Dataset
数据规模: 1K<n<10K

数据集内容

包含2025年11月"GenAI定位研究：Global80"中使用的完整提示-响应对
记录三个领先生成式AI平台对80家全球最大公司的中性比较问题的响应
研究目的：测量模型行为，了解系统如何呈现主要品牌

数据结构

文件: geometriqs_global80_prompt-response-pairs.csv

列名	描述
prompt	提交给模型的确切问题
response	模型的完整文本输出
grounding	无网络访问或网络搜索模式
llm	测试平台
model	平台返回的模型标识符或版本

研究方法

总提示数: 250个中性比较问题
测试模型: OpenAI GPT-5、Google Gemini 2.5 Flash、Perplexity Sonar
模式: 仅训练模式与网络搜索模式
运行次数: 1,500次
研究期间: 2025年9月

局限性

合成提示可能无法捕捉所有真实世界意图
反映2025年9月的英语模型行为
不包含情感或实体标注

引用信息

作者: Niall Cook
引用格式: Cook, N. (2025). Geometriqs Global80 Prompt–Response Dataset. Geometriqs AI Visibility Benchmark Series.

搜集汇总

数据集介绍

构建方式

在生成式人工智能快速发展的背景下，该数据集采用严谨的实验设计构建而成。研究团队于2025年9月精心设计了250个中立且具有比较性的问题提示，针对全球80家领先企业展开系统性调查。通过在三家主流生成式AI平台——OpenAI ChatGPT、Google Gemini和Perplexity AI上并行运行这些提示，并分别设置仅训练模式和网络检索模式两种条件，最终获得1500组完整的问答交互记录。每个数据单元均完整保留了原始提示词与模型响应的对应关系，确保了数据采集的规范性和可比性。

特点

该数据集最显著的特征在于其系统性比较研究的架构设计。通过固定变量法控制提示内容的一致性，能够清晰展现不同AI平台在相同问题情境下的响应差异。数据集涵盖了文本生成模型的两种典型工作模式——基于预训练知识的封闭式应答和结合实时网络检索的增强式应答，为研究者提供了多维度的分析视角。所有数据均采用原始文本格式保存，完整呈现了模型输出的语言特征和内容结构，为深入探究生成式AI的品牌认知机制奠定了坚实基础。

使用方法

研究人员可借助该数据集开展生成式AI行为模式的量化研究。通过对比分析不同平台对相同企业描述的语言特征、信息准确性和立场倾向，能够揭示模型内在的知识表征机制。数据集的标准化格式便于直接导入统计分析软件或自然语言处理工具链，支持从词汇分布、语义相似度到情感倾向的多层次文本挖掘。特别值得注意的是，研究者应当结合数据采集的时间背景，将分析结果置于2025年9月的技术发展语境中理解，同时关注模型版本更新可能带来的表现差异。

背景与挑战

背景概述

生成式人工智能的快速发展催生了对其系统行为进行量化评估的需求，Geometriqs Global80 Prompt–Response数据集于2025年9月由Geometriqs机构主导创建，旨在通过标准化提示词对比三大主流AI平台（OpenAI ChatGPT、Google Gemini和Perplexity AI）对全球80家头部企业的表述差异。该研究聚焦于模型固有表征特性而非用户交互模式，通过设计250组中立比较性问题，构建了包含1500组对话实例的语料库，为生成式AI的透明度研究与品牌数字形象监测提供了基准数据支撑。

当前挑战

在生成式AI评估领域，如何量化不同模型对同一实体表述的一致性构成核心挑战，具体表现为模型在无网络检索与联网搜索模式下输出结果的波动性。数据构建过程中需克服多重技术障碍：设计能触发模型深层语义理解的中立提示词需规避引导性表述；确保三大平台接口返回数据的可比性要求精密实验设计；同时需处理模型版本迭代导致的输出不稳定性，这些因素共同增加了跨平台AI行为研究的复杂度。

常用场景

经典使用场景

在生成式人工智能的评估领域，Global80数据集通过系统化采集三大主流AI平台对全球80家领军企业的中性比较问题回应，为模型行为分析提供了标准化基准。研究者可借助该数据集横向对比不同模型在品牌描述、信息准确性及语言风格上的差异，尤其适用于探究模型在商业语境下的知识表达与偏见生成机制。

衍生相关工作

基于该数据集衍生的经典研究包括《多模态大语言模型的商业知识表征分析》与《生成式AI的品牌语义一致性评估框架》。这些工作进一步构建了企业数字能见度评估指标体系，并催生了针对金融、医疗等垂直领域的专业版基准数据集。

数据集最近研究