BROWSING LOST UNFORMED RECOLLECTIONS (BLUR)

Name: BROWSING LOST UNFORMED RECOLLECTIONS (BLUR)
Creator: 哥伦比亚大学
Published: 2025-03-25 06:46:25
License: 暂无描述

arXiv2025-03-25 更新2025-03-27 收录

下载链接：

https://www.huggingface.co/datasets/PatronusAI/BLUR

下载链接

链接失效反馈

官方服务：

资源简介：

BLUR是由Patronus AI和哥伦比亚大学合作创建的一个多模态、多语言的数据集，包含573个经过精心设计的、现实世界的已知物品搜索和推理问题。这些问题涵盖了广泛的主题领域，其中25%的问题包含不同模态的附加文件输入，如图片、音频或视频。数据集的设计目标是评估通用AI助手在处理舌尖现象（即几乎能回忆起某事物但无法准确想起）时的搜索和推理能力。数据集中的问题经过验证，确保每个问题都有唯一正确的答案，便于自动验证。

BLUR is a multimodal and multilingual dataset co-created by Patronus AI and Columbia University. It contains 573 meticulously designed, real-world known-item search and reasoning questions covering a wide range of thematic domains. Twenty-five percent of these questions include additional file inputs in different modalities such as images, audio, or video. The dataset is designed to evaluate the search and reasoning capabilities of general-purpose AI assistants when dealing with the tip-of-the-tongue phenomenon, i.e., the state of almost being able to recall something but failing to accurately retrieve it. All questions in the dataset have been verified to ensure each has a unique correct answer, facilitating automatic validation.

提供机构：

哥伦比亚大学

创建时间：

2025-03-25

搜集汇总

数据集介绍

构建方式

BLUR数据集的构建过程采用了严格的双阶段验证机制。研究人员首先邀请标注者回忆并描述难以记起名称的事物，形成初步查询。随后，独立的验证者仅基于原始查询尝试识别目标项目，并通过详细的搜索步骤记录验证过程。只有当验证者的答案与原始标注者一致，或能够合理解释差异时，该查询才会被纳入最终数据集。这种设计确保了573个问题的答案具有明确性和唯一性，同时25%的多模态输入和30%的多语言内容反映了真实场景的复杂性。

使用方法

使用BLUR基准时，系统需在零样本提示框架下生成简洁的字符串答案。评估采用弱字符串匹配结合LLM判定的混合机制，准确率经人工验证达98%。为保障评估有效性，数据集划分为公开验证集（含答案）、公开测试集（不含答案）和完全私有测试集。研究者建议通过记录推理链来检测记忆行为，并提供了详细的标注指南以便扩展新问题。对于多模态输入，系统需要整合视觉、听觉等跨模态信息进行综合推理。

背景与挑战

背景概述

BROWSING LOST UNFORMED RECOLLECTIONS (BLUR) 是由Patronus AI和哥伦比亚大学的研究团队于2025年推出的多模态、多语言基准测试数据集，旨在评估通用AI助手在舌尖现象（Tip-of-the-Tongue, ToT）已知项目搜索与推理任务中的表现。该数据集包含573个经过验证的真实世界问题，覆盖文本、图像、音频等多种输入形式，涉及跨模态信息整合、多跳推理及工具使用等核心能力。BLUR的构建灵感来源于在线社区（如Reddit的r/TipOfMyTongue板块）中用户对模糊记忆项目的求助行为，其人类验证准确率高达98%，而当前最优AI系统仅达到56%的性能，凸显了该任务的前沿性与挑战性。

当前挑战

BLUR数据集面临的核心挑战体现在两方面：领域问题层面，舌尖现象检索需解决查询模糊性（如用户描述不完整或含误导信息）、多模态信息融合（如跨图像与文本的关联推理）以及实时性要求（如依赖动态网络资源验证答案）；构建过程层面，需确保答案唯一性（避免开放式问题导致的多解歧义）、规避数据污染（防止预训练数据泄露影响评估效度），并平衡生态效度（如模拟真实用户交互场景与自动化评估的冲突）。此外，多语言查询（占30%）和工具链失效（如API访问限制）进一步增加了数据质量控制的复杂度。

常用场景

经典使用场景

BLUR数据集专为评估通用AI助手在‘舌尖现象’（Tip-of-the-Tongue, ToT）场景下的多模态、多语言搜索与推理能力而设计。其典型应用场景包括：用户通过模糊描述（如‘一本2017年出版、封面有雪人眺望山脉的书籍’）触发AI系统跨文本、图像、音频等多模态信息进行多跳推理，最终精准识别目标条目。该场景模拟了人类在记忆碎片化时的真实信息需求，例如Reddit社区r/TipOfMyTongue中的常见求助案例。

解决学术问题

BLUR解决了信息检索领域三大核心问题：一是模糊查询的语义理解与歧义消解，通过573条真实验证问题评估系统对不确定描述的容忍度；二是多模态与多语言环境下的协同推理能力，25%的问题需处理图像/音频输入，30%涉及非英语语言；三是工具使用的有效性验证，如反向图像搜索、跨语言翻译等工具的协同调用。其人类98%的准确率与现有系统56%的表现差距，揭示了复杂推理与工具编排的研究空白。

实际应用

该数据集的实际价值体现在智能助手的产品化场景中。例如，当用户描述‘伊巴丹某银行对面的建筑照片’时，AI需结合图像识别、地图导航及本地商业数据库进行联合推理。此类能力可延伸至医疗领域辅助失语症患者命名物体，或优化电商平台的模糊商品搜索。其单轮交互设计直接对应语音助手、搜索引擎的即时响应需求，而多模态处理能力则支撑AR/VR环境下的实时信息检索。

数据集最近研究