ArthurSrz/comparag-tool-votes

Name: ArthurSrz/comparag-tool-votes
Creator: ArthurSrz
Published: 2026-04-10 16:01:23
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/ArthurSrz/comparag-tool-votes

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: etalab-2.0 task_categories: - text-generation - question-answering language: - fr - en tags: - mcp - tool-comparison - preference-data - rlhf - blind-evaluation size_categories: - n<1K --- # CompaRAG — Tool Votes Dataset **CompaRAG** is a blind comparison platform for MCP (Model Context Protocol) tools, built by [The Borges Graph](https://github.com/ArthurSrz) as a spinoff of [comparIA](https://comparia.beta.gouv.fr), a French government initiative (Ministère de la Culture / Beta.gouv.fr). ## What is this dataset? This dataset contains **human preference votes** collected on the CompaRAG platform. Users submit a task and a goal, two MCP tools respond anonymously, and the user votes for the best result — without knowing which tool produced which answer. This is the MCP-tool equivalent of RLHF preference data: real tasks, real users, blind evaluation. ## Dataset structure | Column | Description | |--------|-------------| | `id` | Unique vote ID | | `session_hash` | Anonymous session identifier | | `tool_a_id` | Name of tool A (revealed after vote) | | `tool_b_id` | Name of tool B (revealed after vote) | | `chosen` | User's choice: `a`, `b`, or `tie` | | `llm_id` | LLM used as mediator (constant across both calls) | | `task` | The task submitted by the user | | `goal` | The success criterion defined by the user | | `timestamp` | When the vote was recorded | | `competitor_type` | Type of competition (`tool`) | ## Methodology - **Blind evaluation**: tool identities are hidden during voting, revealed only after - **Equifinality principle**: same task, same goal, same LLM — only the tool varies - **Real tasks**: user-submitted, not synthetic benchmarks - **Bradley-Terry scoring**: votes feed into a statistically robust leaderboard ## License [Licence Ouverte / Open Licence 2.0](https://www.etalab.gouv.fr/licence-ouverte-open-licence) (Etalab) ## Citation ```bibtex @dataset{comparag_tool_votes_2025, author = {The Borges Graph}, title = {CompaRAG Tool Votes — Blind MCP Tool Preference Dataset}, year = {2025}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/ArthurSrz/comparag-tool-votes} } ```

提供机构：

ArthurSrz

搜集汇总

数据集介绍

构建方式

CompaRAG工具投票数据集源自法国政府文化部与Beta.gouv.fr联合发起的comparIA倡议衍生产品——CompaRAG平台。该平台专为MCP（模型上下文协议）工具间的盲比评估而设计，收集用户在真实场景下提交任务与目标后，系统隐去工具身份信息，由两个MCP工具匿名响应，用户依据结果质量进行偏好投票。数据集记录投票标识、匿名会话哈希、所比较工具的名称（投票后揭示）、用户选择（工具A、B或平局）、中介LLM标识、用户提交的任务与成功标准、投票时间戳及竞争类型相关信息。

特点

该数据集具有鲜明的RLHF偏好数据特征，聚焦于MCP工具间的盲评对比。其核心特性在于采用盲评方法，工具身份在投票时被隐藏，仅在投票结束后揭示，有效规避了标签偏差。数据集遵循等终局性原则，确保相同任务、目标和LLM条件下，仅工具本身构成变量。所有任务均由真实用户提交，而非合成基准测试，反映实际应用需求。投票结果可基于Bradley-Terry模型进行统计排序，构建稳健的排行榜体系。

使用方法

本数据集适用于文本生成与问答领域的模型偏好学习与工具评估研究。研究者可将其作为RLHF偏好数据的MCP工具等价物，训练奖励模型或优化工具选择策略。使用时应直接加载原始JSON结构，通过id、session_hash等字段关联记录，利用chosen列获取用户偏好标签（a、b或tie）。结合task与goal字段分析不同场景下的工具表现差异，并可依timestamp过滤时序数据。建议采用Bradley-Terry模型从偏好投票中推断工具能力排序，辅助工具迭代与平台改进。

背景与挑战

背景概述

CompaRAG Tool Votes数据集由The Borges Graph团队于2025年创建，作为法国政府文化部与Beta.gouv.fr旗下comparIA项目的衍生产品，聚焦于MCP（模型上下文协议）工具的盲评机制。该数据集旨在解决大语言模型工具评估中主观偏好与客观性能之间的鸿沟，通过收集用户在匿名条件下对两个MCP工具输出结果的偏好投票，构建人类反馈数据集。其核心研究问题在于如何利用真实用户任务与盲评价方法，为MCP工具构建公平、可量化的比较基准。该数据集填补了RLHF偏好数据在工具比较领域的空白，对推动工具选择透明度与评估标准化具有重要影响力。

当前挑战

该数据集面临的挑战首先源于其解决的领域问题：大语言模型工具生态中缺乏公正的评估范式，传统基准测试难以捕捉用户真实偏好，而人工评估又易受工具品牌偏见影响。为此，CompaRAG采用盲评价与等终局性原则，但构建过程需应对多重困难：真实用户任务的多样性导致数据稀疏性，难以保证统计显著性；匿名投票机制虽减少偏见，却增加了工具身份管理的复杂度；同时，小规模数据（n<1K）限制了Bradley-Terry评分模型的鲁棒性，需谨慎处理平局票与噪声数据，以避免排名失真。

常用场景

经典使用场景

CompaRAG-Tool-Votes数据集最经典的使用场景在于对基于模型上下文协议（MCP）的各类工具进行盲测偏好排名。研究人员可通过该数据集构建统计鲁棒的领导力榜单，借助Bradley-Terry评分模型对不同工具的生成质量进行量化比较。用户提交真实任务与目标，两个匿名工具在相同大语言模型中介下生成回答，数据集的盲评机制有效规避了标签订位偏差与展示偏见，使得每一票偏好都忠实反映工具的内在性能差异。这一范式为工具选择提供了实证基础，有力推动了开放生态中MCP工具的可信评测体系建设。

衍生相关工作

该数据集衍生出的经典工作包括基于Bradley-Terry模型的工具能力估计与动态榜单生成系统，其方法论已被用于构建MCP工具的全生命周期评估框架。后续研究者在此基础上提出了结合偏好蒸馏的多工具协作策略，利用投票数据训练轻量级排序器，实现对未见工具的泛化评价。围绕盲评范式，还涌现出对比去偏工具选择算法、偏好一致性校验机制及评估结果可解释性分析等研究分支，这些衍生工作进一步拓展了人类反馈在开放工具评测中的理论深度与应用边界。

数据集最近研究