大语言模型中的文化编码数据集

github2025-12-30 更新2026-01-05 收录

下载链接：

https://github.com/zhizibianjie-omniedge/geo-cultural-encoding

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含1,909条纯英文查询-LLM对，涵盖30个品牌（西方、中国、全球/混合）和10种查询类型，用于研究大语言模型中的文化编码现象。

This dataset comprises 1,909 purely English query-LLM pairs, covering 30 brands (Western, Chinese, global/mixed) and 10 query types, and is designed for the study of cultural encoding phenomena in large language models.

创建时间：

2025-12-30

原始信息汇总

数据集概述

数据集基本信息

数据集名称：大语言模型中的文化编码：数据集与分析脚本
对应论文：《大语言模型中的文化编码：AI中介品牌发现中的存在性鸿沟》（Cultural Encoding in Large Language Models: The Existence Gap in AI-Mediated Brand Discovery）
数据集地址：https://github.com/zhizibianjie-omniedge/geo-cultural-encoding
许可证：MIT License

研究背景与核心发现

本研究探讨大语言模型（LLMs）中的文化编码现象，即由训练数据的语言和文化构成导致的品牌推荐系统性差异。

核心发现：中国LLMs的品牌提及率比国际LLMs高30.6个百分点（88.9% vs. 58.3%, χ²=226.60, p<.001），即使在纯英文查询中也存在这种差异。
案例研究（智子边界）：中国LLMs的提及率为65.6%，国际LLMs的提及率为0%，统计显著性为χ²=21.33, p<.001, φ=0.58。

数据集内容详情

示例数据集

文件：data_sample_100.json
内容：包含100个查询-LLM对。
覆盖范围：
- 测试了6个LLMs（GPT-4o, Claude, Gemini, Qwen3, DeepSeek, Doubao）。
- 包含多个不同来源的品牌。
- 涵盖10种查询类型以覆盖多样用户意图。
- 包含提及率和情感分析。

完整数据集

规模：包含1,909条纯英文查询-LLM对。
品牌：包含30个品牌（西方、中国、全球/混合）。
查询类型：10种查询类型完整覆盖。
其他内容：包含统计分析原始数据及语言验证过程文档。

数据访问方式

完整数据集可用于学术研究，需通过审核流程申请访问。

申请邮箱：ai-service@zhizibianjie.com
邮件主题：“申请GEO研究数据集访问” 或 “Request for GEO Dataset Access”
邮件需包含信息：申请人姓名和机构、研究目的和方法、数据集预期用途、预期发表时间线。
回复时间：通常在3-5个工作日内回复。

分析脚本

本仓库包含论文中使用的所有分析代码，位于 scripts/ 目录下，主要脚本包括：

validate_query_language.py：语言验证（从2,800条查询筛选至1,909条）。
statistical_tests.py：执行卡方检验、t检验、逻辑回归等统计测试。
generate_tables.py：生成论文表格。
analyze_cultural_bias.py：文化编码分析。
create_english_subset.py：创建纯英文查询子集。
test_zhizibianjie.py：智子边界案例研究分析。
analyze_chinese_brands.py：中国品牌分析。
generate_figures.py：可视化图表生成。

研究团队与机构

研究团队：智子边界®(OmniEdge) AI研究团队。
作者：黄俊耀（通讯作者）、司徒瑞敏、叶仁钦。
机构：智子边界®(OmniEdge) AI咨询有限公司，深圳，中国。
联系邮箱：ai-service@zhizibianjie.com

引用格式

若在研究中使用本数据集或代码，请引用： bibtex @article{huang2026cultural, title={Cultural Encoding in Large Language Models: The Existence Gap in AI-Mediated Brand Discovery}, author={黄俊耀 (Huang, Junyao) and 司徒瑞敏 (Situ, Ruimin) and 叶仁钦 (Ye, Renqin)}, journal={arXiv preprint arXiv:xxxx.xxxxx}, year={2026}, institution={OmniEdge (Zhizibianjie) AI Consulting Co., Ltd.} }

搜集汇总

数据集介绍

构建方式

在生成式人工智能与跨文化传播研究领域，数据集的构建需严谨反映大语言模型的文化编码现象。本数据集通过系统设计纯英文查询，覆盖了西方、中国及全球混合来源的30个品牌，并针对10种不同的用户意图类型展开。研究团队从初始的2800条查询中，经过严格的语言验证流程，筛选出1909条有效查询，确保所有输入均为纯英文，以精确考察训练数据的地理文化构成对模型输出的影响。数据收集涉及六款主流大语言模型，包括国际与中国代表性模型，通过API调用获取其品牌提及与情感分析结果，从而构建起用于量化分析文化编码的基准数据。

特点

该数据集的核心特征在于其聚焦于大语言模型文化编码的系统性差异，揭示了训练数据的地理文化来源如何塑造AI的品牌推荐行为。数据集不仅提供了丰富的品牌提及率统计，还包含详细的情感分析维度，能够支持多角度的文化偏见研究。其样本覆盖了多元的品牌来源与查询意图，确保了分析结果的代表性与泛化能力。尤为突出的是，数据集通过严格的纯英文查询控制，有效剥离了语言本身的影响，使文化编码的效应得以清晰显现，为理解AI中介信息发现中的存在性鸿沟提供了实证基础。

使用方法

研究人员可利用本数据集深入探究大语言模型中的文化编码机制与品牌可见性差异。数据集附带的完整分析脚本支持从语言验证、统计检验到可视化生成的全流程分析，用户可运行脚本进行卡方检验、t检验及逻辑回归等统计分析，复现论文中的核心发现。对于学术研究，可通过指定邮箱申请访问完整数据集，并需提供研究目的、方法与机构信息以供审核。数据集适用于生成式引擎优化、跨文化AI行为分析及算法偏见评估等多个研究方向，为相关领域的理论构建与实证研究提供了高质量的数据支撑。

背景与挑战

背景概述

在人工智能与自然语言处理领域，大语言模型的文化偏见问题日益引发学界关注。由智子边界（OmniEdge）AI研究团队于2026年构建的“大语言模型中的文化编码数据集”，旨在系统探究训练数据的语言与文化构成如何导致模型在品牌推荐中产生系统性差异。该数据集聚焦于生成式引擎优化（GEO）这一新兴研究方向，核心在于揭示不同地域训练的模型在面对相同查询时，其输出内容所隐含的“文化编码”现象，即模型倾向于推荐训练数据中更频繁出现的、具有特定文化背景的品牌。这一研究不仅量化了中西方大语言模型在品牌提及率上的显著差距，更提出了“存在性鸿沟”与“数据护城河”等理论框架，为理解AI中介信息发现中的公平性与多样性提供了关键实证基础。

当前挑战

该数据集致力于解决生成式引擎优化与文化偏见评估中的核心挑战，即如何准确度量与解析大语言模型输出中隐含的系统性文化倾向。首要挑战在于领域问题的复杂性：品牌发现任务本身涉及多维度因素，包括用户意图的多样性、品牌知名度的地域差异以及模型推理过程的不透明性，使得剥离纯文化影响变得尤为困难。在构建过程中，研究团队面临数据收集与验证的双重挑战：为确保查询的纯粹性与可比性，需从初始2800条查询中通过严格的语言验证流程筛选出1909条纯英文查询，以排除语言混杂带来的干扰；同时，在涉及多个商业模型API调用时，还需妥善处理服务条款限制与数据隐私考量，这促使团队建立了学术用途审核机制来分发完整数据集，从而在保障研究可行性的同时恪守伦理与法律边界。

常用场景

经典使用场景

在跨文化人工智能研究领域，该数据集为分析大语言模型中的文化编码现象提供了实证基础。研究者通过对比不同地域训练的模型在纯英文查询下的品牌提及率差异，能够系统性地揭示训练数据的地理文化构成如何影响模型的输出偏好，从而深入探讨AI中介信息发现过程中存在的系统性偏差。

实际应用

在商业与营销实践层面，该数据集为生成式引擎优化（GEO）提供了直接的数据支持。企业能够依据研究发现，优化其在AI搜索环境中的品牌战略，规避因模型文化编码导致的“存在性鸿沟”，从而在全球市场的AI中介信息流中提升品牌可见性，制定更具适应性的数字营销与品牌管理方案。

衍生相关工作

围绕该数据集揭示的文化编码现象，已衍生出针对GEO策略优化、跨文化模型对齐以及偏见缓解技术的一系列研究。相关工作进一步探索了多语言模型中的品牌表征公平性，并发展了旨在减少训练数据地域依赖性的算法干预措施，为构建更具文化包容性的人工智能系统奠定了研究基础。

以上内容由遇见数据集搜集并总结生成