GISTBench

github2026-03-27 更新2026-04-01 收录

下载链接：

https://github.com/facebookresearch/GISTBench

下载链接

链接失效反馈

官方服务：

资源简介：

GISTBench是一个用于评估LLM用户理解的基准数据集，通过基于证据的兴趣验证来进行评估。数据集包含用户与项目的交互类型、匿名用户标识符、匿名对象标识符、交互时间以及由VLM生成的对象文本。

GISTBench is a benchmark dataset for evaluating LLM user understanding, which conducts assessments via evidence-based interest verification. The dataset includes types of user-item interactions, anonymous user identifiers, anonymous object identifiers, interaction timestamps, and object texts generated by VLMs.

创建时间：

2026-03-19

原始信息汇总

GISTBench数据集概述

数据集基本信息

数据集名称：GISTBench
核心目的：通过基于证据的兴趣验证来评估大型语言模型（LLM）的用户理解能力
当前状态：即将发布
许可证：数据部分采用CC-BY-NC 4.0许可证，仅用于基准测试目的；object_text部分数据为Llama 3.2的输出，受Llama 3.2许可证约束

预期发布内容

完整的基准代码和评估脚本
完整的GISTBench数据集
预计算结果和排行榜
论文及相关文档

数据字段描述

字段名称	描述
`interaction_type`	用户与项目在聚合内容池中的实际交互类型，汇总为3种类型
`user_id`	匿名化的用户标识符（1-N）
`object_id`	匿名化的对象标识符（1-N）
`interaction_time`	匿名化的交互时间
`object_text`	由视觉语言模型生成，用于逐帧总结视频，然后使用Llama 3.2 70B从视频摘要中创建主题标签

数据使用说明

若使用object_text部分数据创建、训练、微调或以其他方式改进AI模型，且该模型被分发或提供，则必须在任何此类AI模型名称的开头包含“Llama”字样。

搜集汇总

数据集介绍

构建方式

在推荐系统领域，评估大型语言模型对用户兴趣的理解能力至关重要。GISTBench数据集的构建采用了多阶段合成方法，首先从聚合内容池中提取用户与项目的实际交互记录，并归纳为三种交互类型。随后，通过视觉语言模型对视频内容进行逐帧摘要，并利用Llama 3.2 70B模型从摘要中生成主题标签，形成对象文本描述。所有用户和对象标识均经过匿名化处理，交互时间也进行了脱敏，确保了数据隐私与安全。

特点

该数据集的核心特点在于其证据驱动的兴趣验证机制，专为评估大型语言模型的用户理解能力而设计。数据集涵盖了多样化的用户交互行为，并提供了由先进模型合成的对象文本描述，这些描述以主题标签形式呈现，能够反映视频内容的语义特征。数据字段结构清晰，包括交互类型、匿名用户与对象标识、脱敏时间戳及生成文本，为基准测试提供了标准化输入。此外，数据集遵循CC-BY-NC 4.0许可协议，强调其专用于研究评估的非商业性质。

使用方法

研究人员可利用GISTBench数据集进行大型语言模型在推荐场景下的性能基准测试。典型使用流程涉及加载数据集中的交互记录与对象文本，将其作为模型输入以预测用户兴趣或生成个性化推荐。评估脚本可用于计算模型在兴趣验证任务上的准确率、召回率等指标，并与预计算结果进行对比。数据集支持构建排行榜，促进模型间的公平比较，同时其合成文本部分需遵守Llama 3.2许可协议，确保合规使用。

背景与挑战

背景概述

随着大型语言模型在个性化推荐与用户理解领域的深入应用，评估模型对用户兴趣的精准捕捉能力成为研究关键。GISTBench由Meta推荐系统研究团队于近期构建，旨在通过基于证据的兴趣验证，系统评估大型语言模型对用户偏好的理解深度。该数据集聚焦于用户与内容对象的交互行为分析，核心研究问题在于如何量化模型从多模态交互数据中推断用户真实兴趣的准确性，其发布预期将推动个性化人工智能向更可靠、可解释的方向演进。

当前挑战

在个性化推荐领域，模型常面临用户兴趣动态演变与稀疏交互信号带来的推断挑战，GISTBench需解决如何从有限的多模态交互中提取稳健兴趣证据的难题。数据构建过程中，团队需克服多源数据匿名化处理与语义对齐的复杂性，同时确保由视觉语言模型生成的对象摘要与大型语言模型衍生的标签之间保持语义一致性，这些技术环节对数据质量与评估效度构成显著考验。

常用场景

经典使用场景

在推荐系统与自然语言处理交叉领域，GISTBench数据集为评估大型语言模型对用户兴趣的理解能力提供了基准平台。该数据集通过用户与视频内容的交互记录，结合视觉语言模型生成的文本摘要及标签，模拟了真实场景中用户兴趣的多样化表达。研究人员可借助该数据集，系统性地测试模型在识别用户偏好、推断交互意图方面的性能，从而推动个性化推荐技术的精细化发展。

解决学术问题

GISTBench致力于解决推荐系统中用户兴趣建模的验证难题，尤其关注基于证据的兴趣识别。传统方法往往依赖隐式反馈，缺乏对用户真实意图的细粒度解读。该数据集通过结构化交互数据与生成式文本的结合，为学术研究提供了可追溯的兴趣验证框架，有助于探索模型在噪声环境下的鲁棒性、跨模态理解的一致性，以及长期兴趣演变的捕捉能力，进而深化对用户行为本质的理论认知。

衍生相关工作

围绕GISTBench，预计将衍生出一系列关于多模态用户建模的经典研究。例如，结合视觉与文本线索的兴趣表示学习、基于时序交互的动态偏好预测、以及针对生成式标签的噪声过滤方法等。这些工作有望推动推荐系统与大型语言模型的深度融合，催生新的评估指标与架构设计，为下一代个性化技术奠定理论基础，并在学术会议与工业实践中产生广泛影响。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集