GISA

github2026-02-10 更新2026-02-12 收录

下载链接：

https://github.com/RUC-NLPIR/GISA

下载链接

链接失效反馈

官方服务：

资源简介：

GISA是一个用于通用信息寻求助手的基准测试，包含373个反映真实世界信息需求的人工制作的查询。它包括稳定和动态子集，四种结构化答案格式（项目、集合、列表、表格），以及每个查询的完整人类搜索轨迹。

GISA is a benchmark for general-purpose information-seeking assistants, encompassing 373 manually crafted queries that reflect real-world information needs. It includes static and dynamic subsets, four structured answer formats (Item, Set, List, Table), as well as complete human search trajectories for each query.

创建时间：

2026-02-03

原始信息汇总

GISA: 通用信息寻求助手基准

数据集概述

GISA是一个用于评估通用信息寻求助手的基准，包含373个人工构建的查询，这些查询反映了真实世界的信息需求。

核心特性

多样化的答案格式与确定性评估：使用四种结构化答案类型（项目、集合、列表、表格）和严格的匹配指标进行可复现的评估，避免了主观的大型语言模型判断，同时保持了任务的多样性。
统一的深度与广度搜索能力：任务要求对多个来源进行垂直推理和水平信息聚合，在一个基准中评估长视野的探索和总结能力。
动态、反静态的评估：查询被分为稳定子集和实时子集；实时子集会定期更新，以减少记忆效应并保持基准的长期挑战性。
通过人类轨迹进行过程级监督：为每个查询提供完整的人类搜索轨迹，作为过程奖励建模和模仿学习的黄金参考，同时验证任务的可解性。

数据集构成

查询数量：373个。
查询类型：人工构建，反映真实信息需求。
子集划分：包含稳定子集和实时子集。
答案格式：四种结构化格式（项目、集合、列表、表格）。

评估与提交

评估：请遵循 eval_script 中的说明进行评估。
提交结果：请将结果发送至 yutaozhu94 AT gmail.com 或使用 HuggingFace 排行榜提交系统。我们将定期合并已批准的结果。

引用

如需引用，请使用提供的BibTeX条目。

搜集汇总

数据集介绍

构建方式

在信息检索与智能助手领域，GISA基准的构建体现了对真实世界信息需求的深度模拟。该数据集通过精心设计的流程，汇集了373条由人工精心构造的查询，这些查询覆盖了多样化的现实场景。构建过程中，研究人员将查询划分为稳定子集与动态更新子集，并针对每条查询提供了完整的人类搜索轨迹，确保了数据来源的可靠性与任务的可行性。此外，数据集明确设定了四种结构化答案格式，为后续的评估提供了清晰且可复现的基础。

特点

GISA基准的显著特点在于其多维度的评估框架与动态更新的设计理念。数据集不仅涵盖了项目、集合、列表和表格四种结构化答案类型，还通过严格的匹配指标实现确定性评估，避免了主观性评判的同时保留了任务的多样性。其统一的深度与广度搜索能力要求模型同时进行垂直推理与横向信息聚合，从而全面考察长程探索与摘要生成性能。动态更新的实时子集有效减少了模型记忆依赖，确保了基准的持续挑战性，而完整的人类搜索轨迹则为过程奖励建模与模仿学习提供了宝贵的监督信号。

使用方法

使用GISA基准时，研究者可通过其提供的评估脚本对模型性能进行系统化测试。数据集支持在稳定子集上进行常规评估，同时在动态更新的实时子集上考察模型应对新信息的能力。用户需按照指定的结构化格式提交答案，并利用严格匹配指标进行自动化评分，确保结果的可比性与可复现性。此外，完整的人类搜索轨迹可作为参考，用于训练过程监督模型或进行模仿学习分析。结果可通过官方指定的邮件或HuggingFace排行榜系统提交，便于参与持续的基准评估与比较。

背景与挑战

背景概述

在人工智能与信息检索交叉领域，通用信息寻求助手的研究正成为前沿热点。GISA基准数据集由中国人民大学信息检索团队于2026年发布，旨在系统评估模型在复杂、动态信息环境下的综合能力。该数据集包含373条人工构建的真实世界查询，覆盖稳定与动态实时子集，并创新性地引入四种结构化答案格式。其核心研究问题聚焦于如何统一评估模型在深度垂直推理与广度信息聚合方面的表现，为构建具备长程探索与摘要生成能力的智能助手提供了关键基准，对推动检索增强生成技术及开放域问答系统的发展具有显著影响力。

当前挑战

GISA数据集致力于解决通用信息寻求助手在真实场景下面临的核心挑战，即模型需同时具备深度推理与广泛信息整合的能力，以完成复杂、动态的信息寻求任务。在构建过程中，研究团队面临多重挑战：一是如何设计多样化的结构化答案格式（如项目、集合、列表、表格）并确保评估的确定性与可复现性，避免主观性评判；二是如何有效划分稳定与动态实时查询子集，以抵御模型记忆并维持基准的长期挑战性；三是如何采集并提供完整的人类搜索轨迹作为过程级监督，以支持奖励建模与模仿学习，同时验证任务的可解性。

常用场景

经典使用场景

在信息检索与智能助手领域，GISA数据集作为通用信息寻求助手的基准测试工具，其经典使用场景体现在对大型语言模型进行深度与广度搜索能力的综合评估。该数据集通过373条人工构建的查询，模拟真实世界的信息需求，涵盖稳定与动态更新的子集，并设计了四种结构化答案格式，如项目、集合、列表和表格，以支持确定性的自动化评估。研究者利用GISA能够系统测试模型在垂直推理与横向信息聚合方面的表现，从而推动信息寻求助手在复杂任务中的探索与总结能力的发展。

实际应用

在实际应用层面，GISA数据集为开发高效、可靠的信息寻求助手提供了关键支持。它可应用于智能搜索引擎、个性化推荐系统以及专业领域的信息聚合平台，帮助模型在真实场景中处理多样化的用户查询，例如从多源数据中整合答案或生成结构化响应。通过模拟人类搜索行为，该数据集助力优化助手的交互流程，提升信息获取的准确性与效率，从而在商业、教育及科研等领域实现更智能的信息服务，满足日益增长的信息需求。

衍生相关工作

围绕GISA数据集，已衍生出多项经典研究工作，主要集中在信息检索、大型语言模型评估以及过程监督学习方面。例如，基于其提供的完整人类搜索轨迹，研究者开发了过程奖励模型和模仿学习框架，以增强助手在长时程探索中的表现。同时，该数据集激发了针对动态评估方法的创新，推动了基准测试从静态向抗记忆化方向的转变。这些工作不仅扩展了信息寻求助手的能力边界，还为跨领域的信息整合与推理任务提供了新的研究范式，促进了学术社区在智能助手评估标准上的共识形成。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集