cgrt-consensus-5model

Hugging Face2026-01-04 更新2026-01-05 收录

下载链接：

https://huggingface.co/datasets/Adam1010/cgrt-consensus-5model

下载链接

链接失效反馈

官方服务：

资源简介：

CGRT Consensus 5-Model Dataset是一个多模型共识数据集，用于研究数学推理任务上模型之间的一致性和分歧模式。数据集包含61,678个数学问题，由5个前沿的大型语言模型（Claude、Codex/GPT-4、Gemini、DeepSeek、Qwen）评估，并提供了完整的推理轨迹和提取的答案。数据集还包含了模型之间的一致性和分歧模式的分析，如共识等级（Gold、Silver、Bronze、Contested）和难度信号（easy、medium、hard）。

创建时间：

2026-01-03

原始信息汇总

CGRT Consensus 5-Model Dataset 数据集概述

数据集基本信息

数据集名称：CGRT Consensus 5-Model Dataset
发布者：Adam1010
发布日期：2026年
许可证：MIT
任务类别：问答、文本生成
语言：英语
数据规模：10K<n<100K

数据集内容与结构

数据总量：61,678个数学问题
数据格式：JSON Lines
数据文件：consensus_cli_labels_enriched_clean.jsonl
数据划分：训练集（61,678个样本）

特征字段说明

字段名	数据类型	描述
idx	int64	原始问题索引
question	string	数学问题
{model}_response	string	模型的完整推理过程
{model}_answer	string	提取的最终答案
num_models	int64	响应的模型数量
agreement_score	float64	模型一致性的分数（0.4-1.0）
majority_answer	string	最常见的答案
all_agree	bool	所有模型是否一致同意
consensus_tier	string	共识等级（gold/silver/bronze/contested）
outlier_models	sequence[string]	与多数意见不一致的模型列表
difficulty_signal	float64	难度信号分数（0.0 = 容易，1.0 = 困难）
agreeing_models	int64	与多数意见一致的模型数量

评估模型信息

模型	提供方	版本
Claude	Anthropic	claude-3-5-sonnet-20241022
Codex/GPT-4	OpenAI	gpt-4o
Gemini	Google	gemini-1.5-flash
DeepSeek	DeepSeek	deepseek-chat
Qwen	Alibaba	qwen-plus

共识等级分布

等级	描述	数量与占比
Gold	5个模型全部同意	35,482 (57.5%)
Silver	5个模型中有4个同意	11,438 (18.5%)
Bronze	5个模型中有3个同意	6,708 (10.9%)
Contested	无多数同意（2-2-1或更少）	8,050 (13.1%)

难度信号

基于一致性模式：

容易：Gold等级（全部同意）
中等：Silver/Bronze等级（多数同意）
困难：Contested等级（无多数同意）

使用方式

python from datasets import load_dataset

加载完整数据集

ds = load_dataset("Adam1010/cgrt-consensus-5model", split="train")

按共识等级筛选

contested = ds.filter(lambda x: x["consensus_tier"] == "contested") gold = ds.filter(lambda x: x["consensus_tier"] == "gold")

按难度筛选

hard_problems = ds.filter(lambda x: x["difficulty_signal"] == "hard")

生成成本

跨5个模型提供商的API调用成本约为1,000美元。

引用信息

bibtex @dataset{cgrt_consensus_5model, author = {Adam1010}, title = {CGRT Consensus 5-Model Dataset}, year = {2026}, publisher = {HuggingFace}, url = {https://huggingface.co/datasets/Adam1010/cgrt-consensus-5model} }

搜集汇总

数据集介绍

构建方式

在数学推理任务的研究领域中，cgrt-consensus-5model数据集通过整合五个前沿大型语言模型的输出构建而成。该数据集收集了61,678个数学问题，每个问题均由Claude、Codex/GPT-4、Gemini、DeepSeek和Qwen模型生成完整的推理轨迹和最终答案。构建过程中，研究者计算了模型间的一致性与分歧模式，依据多数同意原则提取共识答案，并基于同意比例划分了金、银、铜及争议四个共识层级，同时衍生出难度信号指标，以量化问题的复杂程度。

特点

该数据集的核心特征在于其多层次的结构化标注与丰富的元信息。每个样本不仅包含原始问题及五个模型的响应与答案，还提供了共识层级、同意分数、多数答案、异常模型列表以及难度信号等衍生字段。这些特征使得数据集能够细致刻画模型在数学推理任务上的表现异同，尤其通过共识层级与难度信号的关联，为分析问题难度与模型一致性之间的动态关系提供了实证基础。数据集规模适中，涵盖超过六万个样本，确保了统计上的可靠性。

使用方法

使用该数据集时，研究者可通过Hugging Face的datasets库直接加载，并利用过滤功能按共识层级或难度信号进行子集选择。例如，可以提取所有模型完全一致的“金”层级样本用于高置信度基准测试，或聚焦于“争议”层级样本以探究模型分歧的根源。数据集适用于问答与文本生成任务，支持对多模型共识模式、推理可靠性评估以及问题难度分类等研究方向的深入分析，为理解大型语言模型在数学领域的集体行为提供了宝贵资源。

背景与挑战

背景概述

在大型语言模型（LLM）数学推理能力评估领域，模型间的一致性与分歧模式研究逐渐成为前沿热点。cgrt-consensus-5model数据集由研究者Adam1010于2026年创建并发布，该数据集系统性地收集了五个前沿LLM（包括Anthropic Claude、OpenAI GPT-4o、Google Gemini、DeepSeek Chat和Alibaba Qwen）对61,678个数学问题的完整推理轨迹与答案。其核心研究问题聚焦于通过多模型共识机制，量化评估复杂数学任务中模型的协作与分歧行为，旨在为模型可靠性分析、难度校准及群体智能评估提供标准化基准，对推动可解释人工智能与鲁棒性评测的发展具有显著影响力。

当前挑战

该数据集致力于解决数学推理任务中模型答案一致性与任务难度关联性评估的挑战，具体体现为如何从异构模型输出中提取可靠的共识信号，并据此构建细粒度的难度分层体系。在构建过程中，研究者面临多重挑战：首先，协调五个不同架构与训练范式的模型生成可比对的推理轨迹，需克服API接口差异与输出格式标准化难题；其次，设计稳健的共识度量指标（如共识层级与难度信号）以准确捕捉从“完全一致”到“争议激烈”的连续谱系，避免因简单投票机制而忽略少数模型的潜在正确性；此外，大规模API调用的高昂经济成本与数据质量控制亦是实际构建中的关键制约因素。

常用场景

经典使用场景

在数学推理任务的研究中，CGRT Consensus 5-Model数据集为探究大型语言模型的一致性与分歧模式提供了关键资源。该数据集汇集了五个前沿模型对六万余道数学问题的完整推理轨迹与答案，通过共识层级划分，研究者能够深入分析模型在复杂逻辑问题上的表现差异，进而揭示模型推理能力的边界与共性。

实际应用

在实际应用中，该数据集为模型优化与部署提供了重要参考。开发者可利用共识信息筛选高置信度样本以增强训练数据质量，或针对分歧问题设计针对性改进策略。此外，难度信号有助于自适应教育系统的构建，为个性化学习路径提供依据，提升智能辅导工具的效能与可靠性。

衍生相关工作

基于该数据集衍生的经典工作包括Goodhart-Gap Benchmark等基准测试，这些研究进一步探索了模型在共识与性能之间的关联。相关成果推动了多模型集成、对抗性示例生成及鲁棒性评估方法的创新，为社区提供了衡量模型数学推理能力的新范式，持续影响着自动化推理领域的发展方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集