informativeBench

github2024-11-22 更新2024-11-28 收录

下载链接：

https://github.com/thunlp/iAgents

下载链接

链接失效反馈

官方服务：

资源简介：

informativeBench是一个精心设计的基准数据集，旨在评估语言模型和代理在信息不对称协作环境中的表现。

informativeBench is a well-designed benchmark dataset aimed at evaluating the performance of language models and AI agents in collaborative environments with information asymmetry.

创建时间：

2024-11-07

原始信息汇总

iAgents 数据集概述

数据集简介

iAgents 是一个平台，旨在创建一个人类和代理共同编织的世界，每个用户都有一个个人代理，可以代表他们与其他用户的代理合作。
该平台是一个新的大型语言模型驱动的多代理系统范式。
iAgents 主动与用户互动，交换信息，并通过与其他代理的自主通信来消除信息不对称，有效协作完成任务。

数据集内容

informativeBench: 一个精心设计的基准，用于评估语言模型和代理在信息不对称协作环境中的表现。

数据集使用

快速开始:
- Shell 模式:
  1. 准备 Python 3.9 或更高版本的环境。
  2. 克隆 GitHub 仓库。
  3. 设置 Python 环境并安装依赖。
  4. 配置 config/global.yaml 文件。
  5. 初始化数据库。
  6. 启动应用。
- Docker 模式:
  1. 确保已安装 Docker。
  2. 克隆 GitHub 仓库。
  3. 配置 config/global.yaml 和 .env 文件。
  4. 构建并启动 Docker 容器。

数据集路线图

短期目标:
- 支持 Ollama、JinaReader、llama_index、Agent Cultivate。
长期目标:
- 自定义人类信息访问授权、InfoNav 可视化、代理动作状态栏、添加更多预设数据库、模糊记忆、代理主动发起新通信、切换不同代理类型、自定义推理类、分布式部署、边缘模型支持。

数据集许可证

源代码: Apache 2.0 许可证。
数据: CC BY-NC 4.0 许可证，仅限非商业用途。

引用

@inproceedings{liuautonomous, title={Autonomous Agents for Collaborative Task under Information Asymmetry}, author={Liu, Wei and Wang, Chenxi and Wang, YiFei and Xie, Zihao and Qiu, Rennai and Dang, Yufan and Du, Zhuoyun and Chen, Weize and Yang, Cheng and Qian, Chen}, booktitle={The Thirty-eighth Annual Conference on Neural Information Processing Systems} }

搜集汇总

数据集介绍

构建方式

informativeBench数据集的构建旨在评估语言模型和代理在信息不对称协作环境中的表现。该数据集通过精心设计，模拟了真实世界中的信息不对称场景，确保了数据的真实性和复杂性。构建过程中，研究团队收集了大量多源数据，并通过严格的筛选和标注流程，确保了数据集的高质量和代表性。此外，数据集还包含了多种任务类型，以全面评估模型在不同情境下的适应能力。

使用方法

使用informativeBench数据集时，用户可以通过提供的API接口或直接下载数据文件进行访问。数据集支持多种编程语言和框架，用户可以根据需要选择合适的工具进行数据处理和模型训练。在使用过程中，建议用户参考数据集的文档和示例代码，以确保正确理解和使用数据集的各项功能。此外，数据集还提供了详细的评估指标和基准测试结果，帮助用户更好地评估模型的性能。

背景与挑战

背景概述

informativeBench数据集由THUNLP Lab和OpenBMB团队于2024年创建，旨在评估语言模型和代理在信息不对称协作环境中的表现。该数据集的核心研究问题是如何在信息不对称的情况下，通过自主代理之间的协作来有效完成任务。这一研究对大型语言模型驱动的多代理系统领域产生了深远影响，特别是在提升协作效率和消除信息不对称方面。

当前挑战

informativeBench数据集面临的挑战主要包括：1) 在信息不对称环境中，如何设计有效的评估指标来衡量代理的协作能力；2) 构建过程中，如何确保数据集的多样性和代表性，以覆盖不同类型的信息不对称场景；3) 如何处理和优化大规模数据集，以支持高效的模型训练和评估。这些挑战对于推动多代理系统在实际应用中的性能提升至关重要。

常用场景

经典使用场景

在信息不对称的协作环境中，informativeBench数据集被广泛用于评估语言模型和代理的能力。该数据集通过模拟复杂的多代理交互场景，帮助研究者理解和改进模型在信息不完全情况下的决策和协作能力。通过提供丰富的对话和任务数据，informativeBench使得研究者能够系统地测试和优化代理在信息不对称环境中的表现，从而推动多代理系统的发展。

解决学术问题

informativeBench数据集解决了在信息不对称环境下多代理系统协作效率低下的学术问题。通过提供详尽的模拟数据，该数据集帮助研究者识别和解决代理间信息传递不准确、决策失误等问题，从而提升系统的整体协作效能。此外，informativeBench还为研究者提供了一个标准化的评估框架，使得不同模型和算法在相同条件下的比较成为可能，推动了相关领域的研究进展。

实际应用

在实际应用中，informativeBench数据集被用于开发和优化智能助手、虚拟代理等系统，这些系统需要在信息不完全的情况下进行有效协作。例如，在客户服务、医疗诊断和复杂任务执行等领域，代理需要在没有完整信息的情况下做出决策，informativeBench提供的数据和评估工具帮助开发者构建更加智能和高效的代理系统，从而提升用户体验和服务质量。

数据集最近研究