PACT (Pairwise Auction Conversation Testbed)

github2025-08-21 更新2025-08-22 收录

下载链接：

https://github.com/lechmazur/pact

下载链接

链接失效反馈

官方服务：

资源简介：

PACT是一个用于语言模型对话议价的基准测试数据集。在每个20轮的匹配中，一个语言模型扮演买家，一个扮演卖家，双方都有隐藏的私有价值。每轮他们交换简短的公共消息，然后发布出价或要价；当出价满足要价时交易达成。数据集包含5000+个1对1游戏，每个游戏20轮，并提供完整的对话日志

PACT is a benchmark dataset for conversational bargaining of language models. In each 20-round match, one language model takes the role of the buyer while the other acts as the seller, with both parties holding hidden private values. In every round, the two sides exchange brief public messages before submitting their bids or asks. A transaction will be finalized once a bid matches an ask. The dataset includes over 5,000 one-on-one games, each consisting of 20 rounds, and provides complete conversation logs.

创建时间：

2025-07-30

原始信息汇总

PACT 数据集概述

数据集简介

PACT（Pairwise Auction Conversation Testbed）是一个用于评估语言模型在对话式议价中表现的基准测试。该数据集通过模拟多轮买方-卖方议价场景，测试语言模型的谈判技能。

核心特征

场景设置：每场对决包含1名买方和1名卖方，进行20轮谈判。
交互机制：每轮双方交换简短公共消息，随后提交报价（买方出价，卖方要价）。
交易规则：当买方出价 ≥ 卖方要价时，以中间价成交；否则本轮无交易。
信息模型：代理仅能获取历史轮次的聊天和价格信息，无法查看实时订单簿。
私有价值：每场游戏的私有价值从加权混合分布（均匀分布、相关分布、半双峰分布和重尾分布）中重新抽取。
数据规模：包含5,000多场1对1游戏，每场20轮，提供完整日志记录。

评估指标

主要评分：复合模型分数（CMS），结合对手平衡份额和剩余份额，通过单一α值计算并报告不确定性。
次要视图：每轮平均利润、交易频率、每轮轨迹；Glicko-2排行榜作为补充视角。
确定性：每场匹配在给定种子下具有确定性，所有事件均记录为JSONL格式，支持审计和精确复现。

模型表现

复合排行榜（前10名）

排名	模型	CMS (%)	平均利润/轮	游戏场数
1	GPT-5 (medium reasoning)	72	29.8	465
2	Gemini 2.5 Pro	65	23	403
3	o3 (medium reasoning)	64	28.8	483
4	Gemini 2.5 Flash	62	21.3	318
5	o4-mini (medium reasoning)	60	21.3	376
6	Grok 4	58	21.3	321
7	GPT-OSS-120B	58	17.6	283
8	GPT-5 mini (medium reasoning)	57	23	444
9	Claude Sonnet 4 Thinking 16K	57	22.1	354
10	Claude Opus 4 (no reasoning)	56	19.2	248

分析方法

可视化工具：包括复合模型计分板、头对头剩余份额矩阵、每轮利润分布、平均利润按轮次、平均报价偏移按轮次、平均交易偏移按轮次、估值平均偏移、对手报价偏移按轮次、游戏级报价偏移散点图、所有报价偏移分布、所有交易偏移分布、平均交易频率、按轮次交易频率、PACT Glicko-2排行榜。
个性分析：通过分析数千条聊天记录，为每个模型编制“档案”，描述其标志性策略和 emergent 个性。

应用价值

该基准测试适用于自主代理需要反复谈判的场景，如在线市场、供应链机器人或设备资源管理器，是现实世界对话式交易制定的实用衡量标准。

搜集汇总

数据集介绍

构建方式

在自动协商研究领域，PACT数据集通过模拟买卖双方多轮议价场景构建而成。该数据集采用确定性种子生成机制，每场博弈包含20轮对话，双方智能体在隐藏私有价值的前提下交替发送文本消息并提交报价。交易在买方出价高于卖方要价时以中间价触发，完整对话流和报价历史均以JSONL格式记录，确保实验的可复现性。数据生成过程中融合了均匀分布、相关分布、半双峰分布和重尾分布四种私有价值生成策略，最终形成超过5000场一对一博弈的规模。

使用方法

使用该数据集时，研究者可通过解析JSONL日志文件重构完整谈判过程。基准测试遵循固定回合制流程：每轮先进行文本对话生成，随后提交报价并判断交易是否触发。评估时需计算双方累计利润作为核心指标，并结合CMS评分体系进行跨模型对比。数据集支持通过随机种子复现特定谈判场景，便于进行消融实验。分析时可重点关注智能体在多轮交互中的策略调整模式，如初始锚定强度、让步曲线以及终端博弈行为，这些维度对理解自治代理在真实市场环境中的谈判能力具有重要价值。

背景与挑战

背景概述

PACT（Pairwise Auction Conversation Testbed）作为语言模型多轮议价能力的评估基准，由人工智能研究团队于2024年创建，旨在系统化衡量智能体在动态对话环境中的策略性协商表现。该数据集通过模拟买卖双方20轮议价交互，要求模型在隐藏私有价值的前提下进行实时报价与信息交换，最终以累计收益作为核心评估指标。其创新性在于融合了经济学中的锚定效应、博弈论策略与语言生成技术，为自动驾驶谈判代理、供应链管理系统等实际应用场景提供了标准化测试框架，显著推动了对话式人工智能在复杂决策领域的发展。

当前挑战

PACT需解决智能谈判代理领域的两大核心挑战：一是模型需在信息不对称环境下通过多轮对话推断对方价值阈值并动态调整策略，涉及心理博弈与实时决策的复杂性；二是构建过程中需克服对话历史的长程依赖性、报价策略的因果一致性以及跨模型性能可比性等工程难题。具体包括设计公平的价值分布机制、确保对话与报价的逻辑连贯性，以及开发复合评分体系（CMS）以平衡对手强度与盈余捕获能力，同时需处理数千场博弈的日志记录与可重现性保障。

常用场景

经典使用场景

在计算经济学与多智能体系统研究中，PACT数据集被广泛应用于评估语言模型在多轮双边拍卖场景中的动态议价能力。其经典使用场景表现为模拟买卖双方长达20轮的对话式谈判过程，每个智能体持有隐藏的私有估值并通过交替发送消息与报价进行博弈。该设计完美复现了真实市场中的锚定效应、 bluffing策略和历史依赖型决策行为，为研究智能体在信息不对称环境下的战略互动提供了标准化实验框架。

解决学术问题

PACT有效解决了对话式AI在动态博弈中的策略评估难题，为衡量语言模型的谈判技能提供了量化基准。通过复合模型评分体系（CMS）和Glicko-2评级系统，该数据集能够客观评估智能体在价值探测、让步策略和跨轮次学习等方面的表现。其意义在于首次建立了可重复的谈判智能评估标准，推动了基于语言模型的自动化谈判理论研究，并为多智能体系统中的经济行为建模提供了关键数据支撑。

实际应用

该数据集在电子商务自动化谈判、供应链协调系统和分布式资源管理等领域具有显著应用价值。其设计的多轮对话机制可直接应用于在线市场交易机器人开发，使AI代理能够通过自然语言交互实现价格协商最优化。在工业场景中，该框架可适配于云计算资源分配、物流成本协商等需要重复博弈的商务场景，为构建具备人类式谈判能力的商业智能系统提供训练范本。

数据集最近研究