five

GLEE

收藏
arXiv2024-10-08 更新2024-10-11 收录
下载链接:
https://github.com/eilamshapira/GLEE
下载链接
链接失效反馈
官方服务:
资源简介:
GLEE数据集由以色列理工学院创建,专注于语言模型在经济环境中的交互行为。该数据集包含715万条决策数据,涉及95.4万场游戏,使用四种不同的语言模型。数据集的创建过程基于对经济环境中语言交流的模拟,涵盖了讨价还价、谈判和说服三种主要游戏类型。GLEE数据集的应用领域广泛,旨在通过标准化研究框架,评估和比较语言模型在经济决策中的表现,解决模型在复杂经济环境中的行为和性能问题。

The GLEE dataset was developed by the Technion – Israel Institute of Technology, focusing on the interactive behaviors of language models in economic environments. This dataset contains 7.15 million decision-making records, covering 954,000 game sessions, and uses four distinct language models. The creation of the dataset is based on simulations of linguistic communication in economic settings, encompassing three core game categories: bargaining, negotiation, and persuasion. The GLEE dataset has a wide range of application scenarios, aiming to evaluate and compare the performance of language models in economic decision-making via a standardized research framework, so as to address the behavioral and performance issues of models in complex economic environments.
提供机构:
以色列理工学院
创建时间:
2024-10-08
原始信息汇总

GLEE: A Framework and Benchmark for LLM Evaluation in Language-based Economics

数据集概述

GLEE 是一个用于评估语言模型(LLM)在基于语言的经济学中的框架和基准。该框架包括三个游戏:讨价还价、谈判和说服。框架包含一个模拟环境,用于运行 LLM 玩家和人类玩家之间的游戏,以及一个人类数据收集系统,用于运行人类实验,其中人类玩家与 LLM 玩家对战。框架还包括一组用于评估 LLM 玩家的指标和一组用于比较的基线。

数据集结构

  1. LLM vs. LLM 游戏

    • 通过 main.py 脚本运行,接受配置路径作为参数。
    • 示例配置文件位于 sample_configs 目录中。
    • 可以使用 create_YAMLs.py 脚本批量创建和运行游戏。
  2. 人类数据收集系统

    • 位于 otree_game 目录中,基于 oTree 包。
    • 用于运行人类实验,人类玩家与 LLM 玩家对战。
  3. 分析部分

    • 位于 analyze 目录中,包含用于分析游戏结果和提取指标的脚本。

数据集文件和目录

  • analyze/:包含用于分析游戏结果的脚本,主脚本是 main.py
  • consts.py:包含代码中使用的常量。
  • games/:包含讨价还价、谈判和说服三个游戏的代码,以及用于模拟 LLM 玩家的机器人类代码。
  • installation_instructions.sh:包含仓库的安装说明。
  • main.py:用于运行 LLM vs. LLM 游戏的主脚本。
  • otree_game/:包含人类数据收集系统的 oTree 代码。
  • players/:包含玩家类的代码,包括 LLM 玩家、终端玩家、oTree 玩家等。
  • sample_configs/:包含 LLM vs. LLM 游戏的示例配置文件。
  • settings.py:包含人类数据收集系统的 oTree 设置。
  • utils/:包含整个项目的实用函数。
  • templates/:包含人类数据收集系统的模板。
搜集汇总
数据集介绍
main_image_url
构建方式
GLEE数据集的构建基于一个统一的框架,专注于语言驱动的经济环境中的双人游戏。该框架通过明确且全面的参数化方法,涵盖了所有讨价还价、谈判和说服游戏的范围,并定义了跨经济情境的一致自由度和评估指标。通过这一框架,收集了LLM与LLM之间在多种游戏配置下的交互数据,以及人类与LLM之间的交互数据。
特点
GLEE数据集的特点在于其广泛的参数化设置,包括游戏时间范围、信息结构和通信形式等自由度,这使得数据集能够覆盖多种经济情境。此外,数据集包含了LLM与LLM以及人类与LLM的交互数据,这为比较和评估LLM在不同经济环境中的表现提供了丰富的资源。
使用方法
GLEE数据集的使用方法包括通过控制实验来比较不同LLM在各种经济设置中的表现,以及评估代理在个体和集体绩效指标上的表现。此外,数据集还可用于量化经济环境特征对代理行为的影响,从而为研究LLM在经济环境中的行为提供深入的见解。
背景与挑战
背景概述
GLEE数据集由以色列理工学院和特拉维夫大学的研究人员创建,旨在评估大型语言模型(LLMs)在基于语言的经济环境中的行为。该数据集的核心研究问题包括LLMs在经济和战略互动中的理性行为、模仿人类行为的能力以及在互动中达到效率和公平结果的倾向。GLEE数据集的创建时间为2024年,其影响力在于为LLMs在多代理设置中的研究提供了一个标准化基准,有助于推动LLMs、机器学习和经济学领域的交叉研究。
当前挑战
GLEE数据集面临的挑战包括解决LLMs在经济环境中的行为评估问题,以及在构建过程中遇到的多样化假设、设计选择和评估标准的统一问题。具体挑战包括:1) 如何确保LLMs在经济互动中的行为既理性又符合人类行为模式;2) 在数据集构建过程中,如何处理不同游戏配置和语言模型之间的交互,以确保数据集的广泛适用性和可靠性。
常用场景
经典使用场景
GLEE数据集在语言驱动的经济环境中具有广泛的应用,特别是在评估大型语言模型(LLMs)在双人、顺序、基于语言的游戏中的行为。该数据集通过模拟LLM与LLM以及人类与LLM之间的交互,提供了丰富的数据,用于比较LLM与人类在各种经济情境下的行为差异。例如,在讨价还价、谈判和说服游戏中,GLEE数据集能够评估LLM在个体和集体绩效指标上的表现,并量化经济环境特征对代理行为的影响。
实际应用
GLEE数据集在实际应用中具有重要价值,特别是在在线零售平台和推荐系统等数据驱动系统中。通过分析LLM在讨价还价、谈判和说服游戏中的表现,可以优化这些系统中的交互策略,提升用户体验和系统效率。此外,GLEE数据集还可用于训练和验证经济模型,帮助设计更符合人类行为模式的智能代理,从而在金融咨询、任务导向对话处理等领域发挥作用。
衍生相关工作
GLEE数据集的发布催生了一系列相关研究工作,特别是在评估和优化LLM在各种讨价还价和谈判场景中的表现。例如,研究者利用GLEE数据集开发了语言驱动的框架,探索最优信息传输策略的设计,并生成数据以预测人类玩家的行为。此外,GLEE数据集还促进了在说服游戏中对信息不对称和战略沟通模型的研究,这些模型在广告、营销、政治竞选和推荐系统中具有重要应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作