r15-ai-search-metamerism

Hugging Face2026-04-09 更新2026-04-10 收录

下载链接：

https://huggingface.co/datasets/spectralbranding/r15-ai-search-metamerism

下载链接

链接失效反馈

官方服务：

资源简介：

R15: AI搜索同色异谱——跨文化品牌感知数据集是一个用于研究大型语言模型（LLM）在多维品牌感知中系统性塌缩现象的实验数据集。数据集包含21,601个干净的API调用，覆盖24个来自7种不同训练传统的LLM，涉及9次实验运行。这些数据旨在测试AI模型是否将多维品牌感知塌缩为经济和体验两个维度。数据集包含815个11种语言的本地语言调用。数据按不同实验运行组织，包括全球品牌对、本地品牌对、跨文化对、银行对和地缘政治框架等特定条件。每个实验运行都有明确的目的，如验证假设、探索条件同色异谱或测试品牌功能分辨率。数据集还包含温度鲁棒性测试（T=0.0/0.3/1.0）和本地语言扩展（希腊语、拉脱维亚语、斯瓦希里语、越南语、塞尔维亚语）。数据集文件以JSONL格式提供，每个文件对应一个特定的实验运行或条件。此外，还提供了完整的分析脚本和测试结果，适用于品牌感知、LLM评估和跨文化研究等领域。

创建时间：

2026-04-07

原始信息汇总

R15: AI Search Metamerism -- Cross-Cultural Brand Perception Dataset 概述

数据集基本信息

许可证: MIT
任务类别: 文本生成
支持语言: 英语 (en)、中文 (zh)、俄语 (ru)、日语 (ja)、韩语 (ko)、阿拉伯语 (ar)、印地语 (hi)、乌克兰语 (uk)、希腊语 (el)、拉脱维亚语 (lv)、越南语 (vi)、塞尔维亚语 (sr)、瑞典语 (sv)、斯瓦希里语 (sw)、蒙古语 (mn)
标签: 品牌感知、LLM评估、跨文化、光谱品牌理论、维度坍缩、方差收缩、国家AI模型、地缘政治框架、母语提示、PRISM-B
数据规模: 10K < n < 100K

数据集描述

该数据集包含来自一项实验的数据，旨在测试AI模型是否将多维品牌感知系统地坍缩为经济和体验两个维度。

数据总量: 21,601次干净的API调用。
模型覆盖: 涵盖24个大型语言模型，来自7个模型训练传统，在9次实验运行中测试。
多语言调用: 包含815次母语调用，涉及11种语言。

实验模型与成本

模型类型	模型数量	调用次数 (干净)	成本
付费云模型	10	7,500	$5.52
免费云模型	6	5,500	$0
本地Ollama模型	8	8,500	$0
总计	24	21,601	$5.52

具体模型列表:

付费: Claude, GPT-4o-mini, Gemini, DeepSeek, YandexGPT Pro, GPT-OSS-Swallow, GigaChat, Sarvam, DashScope Qwen Plus, Fireworks GLM。
免费: Grok (xAI), Groq (Llama 3.3, Kimi K2, ALLaM-2), Cerebras (Qwen3-235B), SambaNova (DeepSeek V3.2)。
本地: Ollama on Apple Mac mini M4 Pro 64GB (Gemma 4, Qwen3, Qwen3.5, EXAONE, Jais, Swallow, GigaChat local, YandexGPT local)。

关键实验结果

假设	结果	关键统计量
H1 (维度坍缩)	支持	DCI = 35.6 vs 25.0 基线，d = 3.449，p < 0.0001
H2 (跨模型收敛)	支持	余弦相似度 = 0.977 (跨24种架构)
H6 (西方 vs 非西方)	支持	西方 DCI 0.339 vs 非西方 0.360，p = 0.0013
H10 (母语效应)	不支持	46/115 模型对组合，均值 = -0.005
H12 (地缘政治框架)	支持	同一品牌在不同城市：delta = 0.040，p < 0.0001

测量工具

工具: PRISM-B (Perception Response Instrument for Structured Measurement -- Brand variant)。
描述: 用于测量LLM多维感知的开源L0-L4脚手架。

实验运行概览

运行	品牌对	模型	干净调用数	目的
Run 2	10个全球品牌对	6+1	3,780	验证H1-H4 + Qwen Plus回填
Run 3	5个本地品牌对	6+1	1,890	条件同色异谱 + Qwen Plus回填
Run 4	5个本地+特定品牌对	变化	353	品牌功能解析度测试
Run 5	7个跨文化品牌对	22+2	7,171	H5-H10探索性 + 补充
Run 6	1个银行品牌对	24	1,881	H11 Tinkoff/PrivatBank
Run 7	3个框架品牌对	24	1,091	H12地缘政治框架 (uk/ru/zh/sv)
Run 8	5个本地品牌对	18	4,895	母语扩展 (el/lv/sw/vi/sr)
Run 9	10个全球品牌对	6	540	温度鲁棒性测试 (T=0.0/0.3/1.0)

测试的母语列表

俄语 (ru)、乌克兰语 (uk)、中文 (zh)、瑞典语 (sv)、斯瓦希里语 (sw)、越南语 (vi)、塞尔维亚语 (sr)、希腊语 (el)、拉脱维亚语 (lv)、日语 (ja)、韩语 (ko)、阿拉伯语 (ar)、印地语 (hi)、蒙古语 (mn)。共计815次调用。

数据文件

数据文件 (JSONL格式)

文件	调用次数	描述
`data/run2_global.jsonl`	3,240	10个全球品牌对，6个模型
`data/run2_qwen_plus.jsonl`	540	Run 2的Qwen Plus回填数据
`data/run3_local.jsonl`	1,620	5个本地品牌对，6个模型
`data/run3_qwen_plus.jsonl`	270	Run 3的Qwen Plus回填数据
`data/run4_resolution.jsonl`	353	品牌功能规格测试
`data/run5_crosscultural_part1.jsonl`	3,122	跨文化品牌对 (6,244次调用的第1部分)
`data/run5_crosscultural_part2.jsonl`	3,122	跨文化品牌对 (6,244次调用的第2部分)
`data/run5_gptoss_swallow.jsonl`	435	GPT-OSS-Swallow补充数据
`data/run5_fireworks_glm.jsonl`	492	Fireworks GLM回填数据
`data/run6_banking_clean.jsonl`	1,018	Tinkoff vs PrivatBank银行对
`data/run7_framing.jsonl`	523	H12地缘政治框架 (uk/ru/zh母语)
`data/run7d_swedish.jsonl`	568	瑞典斯德哥尔摩框架条件
`data/run8_native_expansion.jsonl`	4,895	母语扩展 (el/lv/sw/vi/sr)
`data/run9_temp_0.0.jsonl`	180	温度鲁棒性 T=0.0 (确定性)
`data/run9_temp_0.3.jsonl`	180	温度鲁棒性 T=0.3 (低方差)
`data/run9_temp_1.0.jsonl`	180	温度鲁棒性 T=1.0 (高方差)

分析文件

文件	描述
`analysis/run5_analysis.py`	完整分析脚本 (H1-H12)
`analysis/run5_analysis_results.json`	完整测试结果 (JSON)
`analysis/run5_dci_table.csv`	各模型DCI排名
`analysis/run5_diagonal_advantage.csv`	H5对角线优势矩阵
`analysis/R15_token_cost_analysis.csv`	Token和成本细分
`analysis/R15_per_call_detail.csv`	每次调用详细摘要

引用信息

标题: Spectral Metamerism in AI-Mediated Brand Perception: How Large Language Models Collapse Multi-Dimensional Brand Differentiation in Consumer Search
作者: Zharnikov, Dmitry
年份: 2026
DOI: 10.5281/zenodo.19422427

源代码

完整实验基础设施 (PRISM-B工具): https://github.com/spectralbranding/sbt-papers/tree/main/r15-ai-search-metamerism/experiment

搜集汇总

数据集介绍

构建方式

在品牌感知与人工智能交叉研究领域，R15数据集通过精心设计的实验框架构建而成。该数据集基于PRISM-B测量工具，系统采集了来自24个不同架构的大型语言模型的21,601次有效API调用，覆盖付费云服务、免费云平台及本地部署三种模型运行环境。实验设计包含九个独立运行阶段，分别针对全球品牌对、本地品牌对、跨文化比较及地缘政治框架等情境展开，并特别纳入11种语言的815次母语提示调用，以探究多维度品牌感知在AI中介下的坍缩现象。

特点

该数据集的核心特征体现在其多维度的实验设计与跨文化的覆盖广度。数据涵盖了来自七大模型训练传统的24种LLM，包括Claude、GPT-4o-mini、Gemini等主流模型，确保了技术生态的代表性。数据集通过严谨的假设检验框架，验证了维度坍缩、跨模型收敛及地缘政治框架效应等关键现象，并提供了温度鲁棒性测试与母语提示影响的深入分析。其JSONL格式的详细记录与完整的分析脚本，为复现研究与深入探索提供了结构化支持。

使用方法

研究者可利用该数据集深入探究AI模型在品牌感知任务中的行为模式。数据集文件按实验运行阶段分类存储，每个JSONL文件对应特定实验条件下的API调用记录，便于针对性分析。配套的Python分析脚本可直接用于复现论文中的假设检验与统计计算，而详细的每调用摘要与成本分析表格则为资源评估提供了依据。该数据集适用于跨文化比较、模型偏差检测、品牌光谱理论验证等多方面研究，为理解AI中介下的消费者认知提供了实证基础。

背景与挑战

背景概述

R15: AI搜索同色异谱——跨文化品牌感知数据集，由Dmitry Zharnikov于2026年提出，隶属于光谱品牌理论（Spectral Brand Theory）研究范畴。该数据集旨在探究大型语言模型在消费者搜索场景中，是否将多维品牌感知系统性地坍缩为经济和体验两个维度，揭示了人工智能中介下品牌认知的潜在偏差。研究覆盖了来自七个模型训练传统的24种大语言模型，包含超过两万次洁净API调用，并涉及11种语言的815次母语提示，为理解模型在跨文化语境中的表现提供了实证基础。其核心研究问题聚焦于人工智能如何重塑品牌差异化表征，对计算广告学、消费者行为分析及跨文化人机交互领域产生了深远影响。

当前挑战

该数据集致力于解决品牌感知多维表征在人工智能搜索中的坍缩问题，其核心挑战在于量化并验证不同语言模型对复杂品牌属性的简化倾向，即“维度坍缩”现象。构建过程中的挑战包括：设计能够精准捕捉跨文化品牌差异的测量工具PRISM-B；协调24种异构模型架构的大规模API调用，确保数据采集的一致性与成本可控；处理多语言母语提示的语义等效性，以消除语言偏差对感知测量的干扰；以及在实验设计中平衡全球品牌与本地品牌对，以检验地缘政治框架对模型输出的影响。

常用场景

经典使用场景

在跨文化品牌认知研究领域，该数据集为评估大型语言模型在品牌感知任务中的系统性偏差提供了标准化实验框架。研究者通过PRISM-B测量工具，系统性地收集了24种不同架构模型对全球及本土品牌的多维度评价数据，涵盖经济与体验两大核心维度。这种设计使得学者能够精确量化模型在品牌差异化表征上的压缩现象，为理解人工智能如何中介消费者搜索行为提供了关键实证基础。

解决学术问题

该数据集有效解决了品牌光谱理论中关于维度塌缩现象的量化验证难题，通过跨模型、跨语言的对比实验，揭示了大型语言模型普遍将多元品牌属性简化为二维结构的系统性趋势。其实验结果证实了西方与非西方模型在品牌认知维度上存在显著差异，同时验证了地缘政治框架对模型输出的可操纵性。这些发现为人工智能中介传播理论提供了重要实证依据，推动了计算社会科学与营销科学的交叉融合。

衍生相关工作

基于该数据集验证的维度塌缩理论，后续研究衍生出多个重要方向。部分学者扩展了PRISM-B测量框架，开发出针对政治候选人与新闻媒体的认知评估工具。另有团队将其地缘政治操纵实验范式应用于国际关系文本分析，揭示了大型语言模型在领土争端表述中的系统性偏向。在方法学层面，该数据集推动了对模型温度参数鲁棒性的系统性检验，促进了人工智能评估协议的标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集