gistbench

Name: gistbench
Creator: AI at Meta
Published: 2026-04-08 03:57:29
License: 暂无描述

Hugging Face2026-04-08 更新2026-04-09 收录

下载链接：

https://huggingface.co/datasets/facebook/gistbench

下载链接

链接失效反馈

官方服务：

资源简介：

GISTBench 是一个用于评估大型语言模型（LLM）如何根据用户的历史互动理解用户兴趣的基准测试。该数据集包含约 1,000 名匿名用户的 4,214,059 次内容互动记录，格式为 Parquet。数据模式包括用户ID、内容项ID、内容项文本描述、互动类型和互动时间等字段。互动类型分为显式正面、隐式正面、隐式负面和显式负面四种，每种类型均有具体示例。该数据集适用于文本分类任务，旨在帮助研究者验证LLM是否能从用户互动中提取有意义的兴趣，并基于证据进行引用。数据集采用 CC BY-NC 4.0 许可发布。

提供机构：

AI at Meta

创建时间：

2026-04-05

搜集汇总

数据集介绍

构建方式

在个性化推荐与用户建模领域，GISTBench数据集的构建体现了对用户隐式与显式反馈的精细化采集。该数据集源自约一千名匿名用户的真实交互历史，涵盖了对视频、文章、书籍等多种内容类型的四百余万条互动记录。每条记录均通过精心设计的模式进行结构化，不仅包含用户与内容项目的匿名标识，还详细标注了交互类型与时间戳，并通过文本描述捕捉了内容项目的语义信息。这种基于真实用户行为轨迹的构建方式，为评估大语言模型从历史交互中推断用户兴趣的能力提供了坚实的数据基础。

使用方法

使用GISTBench数据集时，研究者可通过Hugging Face的`datasets`库便捷加载。加载后的数据集以`DatasetDict`形式呈现，包含训练集分区，用户可直接访问其中的交互类型、用户ID、内容ID、时间戳及内容文本等特征字段。该数据集主要服务于评估大语言模型基于用户历史交互进行兴趣提取、证据溯源及具体内容引用的能力。在具体研究任务中，可将其构建为用户序列预测、兴趣标签生成或可验证性推理等任务的基准，通过分析模型在细粒度交互信号上的表现，推动个性化用户理解技术的发展。

背景与挑战

背景概述

随着大型语言模型在个性化推荐与用户理解任务中的广泛应用，评估模型从用户历史交互中精准推断兴趣的能力成为关键研究方向。GISTBench数据集由Meta等机构的研究团队于2026年创建，旨在构建一个系统性的测试基准，以衡量模型能否基于用户与视频、文章等内容的互动记录，提取有意义的兴趣点，并以证据为基础进行验证与引用。该数据集包含约一百万匿名用户的四百余万条交互记录，通过显式与隐式的正负反馈信号，为研究社区提供了评估模型用户理解能力的标准化工具，推动了个性化人工智能向可解释性与可靠性方向发展。

当前挑战

GISTBench致力于解决用户兴趣建模与可验证性评估中的核心挑战：如何让大型语言模型从混杂的交互历史中区分噪声与真实兴趣，并基于具体内容证据进行兴趣陈述。构建过程中的挑战包括设计细粒度的交互分类体系以涵盖显式与隐式、正面与负面的用户行为，同时确保大规模用户数据的匿名化处理，在保护隐私的前提下保持数据的真实性与统计代表性。此外，数据集的构建需平衡不同交互类型的分布，避免偏差影响模型评估的公正性，这对数据采集与标注流程提出了严谨的要求。

常用场景

经典使用场景

在个性化推荐与用户建模领域，GISTBench数据集为评估大型语言模型从用户历史交互中提取兴趣的能力提供了基准。该数据集通过模拟真实场景中的用户与内容互动，如视频观看、文章阅读等，要求模型不仅识别用户的显性与隐性兴趣，还需基于具体交互证据进行兴趣的验证与引用。这一场景典型地应用于测试模型在理解用户偏好时的准确性与可解释性，为推荐系统的兴趣建模研究提供了标准化评估框架。

解决学术问题

GISTBench致力于解决用户兴趣建模中的可解释性与证据基础问题。传统推荐系统往往依赖隐式反馈进行兴趣推断，缺乏对兴趣来源的明确追溯。该数据集通过标注显性与隐性、正面与负面的交互类型，促使研究关注兴趣的实证基础，即模型能否从具体交互中提取兴趣并引用相关项目。这推动了可解释推荐、用户画像构建以及大型语言模型在个性化任务中的评估方法学发展，增强了兴趣建模的透明度和可靠性。

实际应用

在实际应用中，GISTBench数据集可服务于个性化内容推荐平台的算法优化。例如，在新闻推送、视频流媒体或电子商务平台中，利用该数据集训练或评估的模型能够更精准地从用户历史行为中挖掘兴趣点，并基于证据生成解释性推荐理由，从而提升用户体验与平台粘性。此外，该数据集支持负反馈信号的建模，帮助系统避免重复推荐用户不感兴趣的内容，实现更智能的个性化服务。

数据集最近研究