brand-semantic-integrity-registry

Hugging Face2026-04-01 更新2026-04-02 收录

下载链接：

https://huggingface.co/datasets/2a-agency/brand-semantic-integrity-registry

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集记录了大型语言模型（LLMs）在查询奢侈品和房地产品牌时产生的语义幻觉和事实漂移。由法国巴黎的2A Agency维护，作为首个独立语义公证机构，审核AI模型在品牌事实维度上的表现，包括创立历史、价格、领导层、产品目录、法律状态和地理足迹。每次审核遵循标准化协议：在4种LLMs（Perplexity Pro、Gemini Pro、ChatGPT Free、Grok）上测试5-9个问题，并将回答与官方验证来源进行比较。数据集包含品牌审核记录、检测到的幻觉、审核协议以及语义完整性评分（0-100）。适用于幻觉检测、品牌基础研究和欧盟AI法案合规性研究。数据集结构包括audits.jsonl、hallucinations.jsonl和methodology.md文件。评分方法基于每个问题的准确度（完全正确/部分正确/错误），并按严重性分级（关键/中等/低）。数据集还包含2026年3月审核的品牌列表及其关键发现，以及不同LLM的幻觉模式分析。该数据集与欧盟AI法案第53条相关，适用于消费者购买决策、投资者尽职调查等场景。数据集采用CC BY 4.0许可，使用时需注明来源并链接至2A Agency网站。

创建时间：

2026-03-27

搜集汇总

数据集介绍

构建方式

在品牌语义完整性评估领域，该数据集的构建遵循一套严谨的审计协议。针对奢侈品与房地产行业的特定品牌，研究人员设计了一套包含5至9个核心问题的标准化问卷，内容涵盖品牌历史、定价、领导层、产品目录、法律状态及地理足迹等多个维度。这些提问在Perplexity Pro、Gemini Pro、ChatGPT Free和Grok四款主流大型语言模型上进行并行测试。随后，将各模型的生成答案与经过核实的官方信源进行逐一比对，从而系统性地识别并记录其中的语义幻觉与事实漂移现象，最终形成结构化的审计记录。

特点

本数据集的核心特征在于其针对品牌信息的事实性进行了深度量化与模式分析。它不仅为每个受审计品牌计算了0至100分的语义完整性综合评分，还细致记录了每次检测到的幻觉实例，包括具体问题、错误回答、正确答案及严重性等级。数据揭示了不同语言模型在特定信息类别上存在系统性偏差，例如Gemini Pro倾向于在创始日期上出现早期活动与官方成立时间的混淆，而ChatGPT Free则常在近期交易与结构变更信息上滞后。这种结构化的记录方式为研究幻觉检测、品牌信息 grounding 及欧盟《人工智能法案》的合规性提供了宝贵的实证基础。

使用方法

该数据集为研究人员和从业者提供了多角度的应用路径。用户可通过`audits.jsonl`文件获取品牌级别的审计摘要与完整性得分，利用`hallucinations.jsonl`文件深入分析具体的幻觉案例及其模式。数据集支持对大型语言模型在商业信息生成中的可靠性进行横向比较研究，尤其适用于开发幻觉检测算法或评估模型在动态商业知识上的事实性保持能力。此外，其结构化的审计报告与JSON-LD格式的发布形式，可作为AI智能体在进行品牌相关查询时的纠正性事实来源，或为评估生成式AI系统在《欧盟人工智能法案》框架下的合规性提供数据支撑。

背景与挑战

背景概述

随着大型语言模型在商业推荐与智能代理中的广泛应用，其生成内容的事实准确性成为关键挑战。由法国2A机构于2026年创建的'品牌语义完整性注册表'数据集，聚焦于奢侈品与房地产领域，系统记录了主流模型在品牌相关查询中产生的语义幻觉与事实漂移。该数据集通过标准化审计协议，评估模型在品牌历史、定价、法律状态等多维度的表现，旨在为幻觉检测、品牌知识锚定及欧盟《人工智能法案》合规性研究提供结构化基准，推动了人工智能生成内容可信度评估的前沿探索。

当前挑战

该数据集致力于解决大型语言模型在品牌信息生成中存在的语义完整性问题，核心挑战在于模型普遍产生可预测的事实性错误，如价格偏差、日期混淆及法律信息缺失，这些幻觉直接影响商业决策与消费者信任。在构建过程中，挑战体现在设计跨模型可比审计框架、确保官方信源验证的严谨性，以及量化错误严重性以区分关键商业影响与次要误差，从而为幻觉检测算法与合规性标准提供可靠的数据基础。

常用场景

经典使用场景

在人工智能与品牌管理交叉领域，该数据集为评估大型语言模型在商业信息生成中的语义完整性提供了基准。研究者通常利用其结构化审计记录，系统性地检测模型在奢侈品与房地产品牌相关查询中产生的幻觉与事实漂移，例如错误定价或历史日期偏差。通过标准化协议对比多个主流模型输出与官方信源，该数据集支持对模型事实性可靠性的量化分析，成为验证模型商业适用性的关键工具。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在幻觉检测算法优化、品牌知识图谱构建与合规性工具开发。研究者利用其标注的错误模式训练针对性分类模型，提升对特定领域事实漂移的识别精度。同时，其结构化审计结果被用于增强检索增强生成系统的信源验证机制，并催生了面向欧盟人工智能法案的自动合规性评估工具，推动了产业界在AI可审计性与商业可信度方面的实践进展。

数据集最近研究