rankalign-eval-summary

Hugging Face2026-04-07 更新2026-04-08 收录

下载链接：

https://huggingface.co/datasets/TAUR-dev/rankalign-eval-summary

下载链接

链接失效反馈

官方服务：

资源简介：

RankAlign Eval Summary 数据集是一个汇总了 RankAlign 实验评估指标的数据集。每行数据代表一个特定的（模型、任务、分割、典型性校正类型、评估变体）组合，这些数据是从单独的 `scores_*.csv` 文件中计算得出的。数据集包含 20,728 行，覆盖了 2 个模型家族、235 个任务和 4 种评估分数变体。数据集中的列包括身份列（如模型名称、任务、分割等）、典型性校正类型列（如 self_tc、neg_tc、gpt2_tc）、评估变体列（如 raw、tc、lenorm、tc+lenorm）以及度量列（如 gen_roc、val_roc、val_acc、corr 等）。此外，数据集还包含来源信息列（如 n_samples、filename）。数据集支持增量更新，可以通过运行特定脚本来添加新文件并重新计算指标。

创建时间：

2026-04-07

原始信息汇总

RankAlign Eval Summary 数据集概述

数据集基本信息

数据集名称: RankAlign Eval Summary
数据集地址: https://huggingface.co/datasets/TAUR-dev/rankalign-eval-summary
数据量: 22,412 行示例
数据集大小: 14,028,228 字节
下载大小: 1,087,138 字节
数据分割: 仅包含 "train" 分割

数据集内容与来源

核心内容: 为 RankAlign 实验汇总的评估指标。每一行汇总了一个（模型、任务、分割、典型性校正类型、评估变体）组合的指标，这些指标是从单独的 scores_*.csv 文件计算得出的。
数据规模: 包含 20,728 行，涵盖 2 个模型系列、235 个任务、4 种评估分数变体。
生成方式: 由 rankalign 项目中的 scripts/summarize_scores.py 脚本生成。

数据筛选条件

模型: 仅包含 v6 系列模型（v6-google_gemma-2-2b, v6-google_gemma-2-9b-it）。
训练周期: 仅包含基础（未微调）模型和微调至第 2 周期的模型。
去重: 当同一（模型、任务、分割、典型性校正类型、训练配置）存在多个分数文件时，仅保留时间戳最新的文件。

数据特征（列）描述

标识列

model: 基础模型名称（字符串）。例如 v6-google_gemma-2-2b。典型性校正前缀（self-, neg-）被剥离并单独追踪。
hf_model_name: Hugging Face 模型名称（字符串）。
local_model_name: 本地模型名称（字符串）。
task: 评估任务名称（字符串）。例如 hypernym-bananas, plausibleqa-nq_1369。
split: 数据分割（字符串）：test 或 train。
finetuned: 布尔值。如果这是微调模型则为 True（通过模型名称中的 -delta 检测）。
training_config: 字符串。微调模型的完整训练配置。基础模型为空字符串。

典型性校正类型列

所有三个典型性校正列均为评估时属性，表示运行评估脚本时使用了哪种典型性校正方法。每行最多只有一个为 True。

self_tc: 布尔值。对应 eval_by_claude.py --self-typicality 标志。通过减去模型自身对补全的无条件对数概率来校正生成分数。
neg_tc: 布尔值。对应 eval_by_claude.py --neg-typicality 标志。使用否定提示（LLR）校正生成分数。
gpt2_tc: 布尔值。对应 eval_by_claude.py --typicality-correction 或 eval.py --typicality-correction 标志。通过减去 GPT-2 对补全的对数概率来校正生成分数。
当三者均为 False 时，表示评估时未应用典型性校正。

评估变体列

eval_variant: 字符串。指示用于计算指标的源 CSV 文件中的哪个生成分数列。取值为：
- raw: 原始生成分数，未应用校正。
- tc: 典型性校正后的生成分数。校正方法由 self_tc/neg_tc/gpt2_tc 列决定。
- lenorm: 长度归一化后的生成分数。
- tc+lenorm: 同时经过典型性校正和长度归一化的生成分数。

指标列

所有指标均按（模型、任务、分割、评估变体）从源 CSV 的分数列和真实标签计算得出。

gen_roc: 浮点数。生成分数相对于真实标签的 ROC-AUC。衡量生成分数区分正负示例的能力。
val_roc: 浮点数。验证（判别）分数相对于真实标签的 ROC-AUC。使用源 CSV 中的 val_score 列。
val_acc: 浮点数。验证分数的准确率，使用阈值=0（针对对数几率度量类型）。
corr: 浮点数。所有样本的生成分数与验证分数之间的皮尔逊相关性。
corr_pos: 浮点数。仅正标签样本的生成分数与验证分数之间的皮尔逊相关性。
corr_neg: 浮点数。仅负标签样本的生成分数与验证分数之间的皮尔逊相关性。
NaN 值表示无法计算该指标（例如，相关性计算输入为常量，或 ROC-AUC 计算数据为单一类别）。

溯源列

n_samples: 整数。源 scores_*.csv 文件中的行数。
filename: 字符串。源 scores_*.csv 文件名。用于增量更新模式下的去重和可追溯性。

任务系列概览

系列	示例任务	任务数量
plausibleqa	`plausibleqa-nq_1369`, `plausibleqa-webq_342`	~200 个任务
ifeval	`ifeval-prompt_10`, `ifeval-prompt_100`	~100+ 个任务
hypernym	`hypernym-bananas`, `hypernym-dogs`, ... (18 个子任务)	18 个任务
ambigqa	`ambigqa-american`, `ambigqa-winter`	~18 个任务

增量更新支持

该数据集支持增量更新。运行指定命令可以从 HuggingFace 拉取现有摘要，跳过已处理的文件（通过 filename 匹配），仅计算新文件的指标，合并后重新上传。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估模型的典型性校正效果需要系统化的数据支撑。RankAlign Eval Summary数据集通过汇总来自多个实验的评估指标构建而成，其核心流程涉及对原始评分文件的聚合处理。具体而言，该数据集利用脚本`summarize_scores.py`从`rankalign`项目中提取各个`score_*.csv`文件，并针对每个（模型、任务、数据分割、典型性校正类型、评估变体）组合计算综合指标。构建过程中应用了严格的过滤策略，仅保留特定模型家族（如Gemma-2B与9B）及特定训练轮次（基础模型与第二轮微调模型）的数据，同时通过时间戳去重确保每个组合仅包含最新结果，最终形成包含20,728行记录的结构化汇总。

特点

该数据集在模型评估领域展现出多维度特性，其设计旨在全面捕捉典型性校正方法对生成式与判别式评分的影响。数据集覆盖了235项任务，涵盖常识推理、指令遵循、上下位词识别及歧义问答等多个任务家族，并提供了四种评估变体，包括原始生成分数、典型性校正分数、长度归一化分数及其组合形式。每一行数据均整合了模型身份、任务类型、校正标志及多种评估指标，如生成分数的ROC-AUC、验证分数的准确率以及生成与验证分数间的相关性分析。此外，数据集支持增量更新机制，允许通过脚本自动合并新实验结果，确保了数据的可扩展性与时效性。

使用方法

在模型性能分析与比较研究中，该数据集为系统评估典型性校正技术的效果提供了标准化框架。使用者可通过加载数据集，依据模型名称、任务类型或校正标志等列进行筛选，以横向对比不同校正策略（如自典型性、负提示典型性或GPT-2典型性）在各类任务上的表现。评估指标如`gen_roc`与`val_acc`可直接用于衡量生成式与判别式模型的判别能力，而相关性列（`corr`、`corr_pos`、`corr_neg`）则有助于深入分析分数间的一致性。对于持续实验，可利用附带的增量更新脚本，将新产生的评分文件自动整合至现有汇总中，从而支持长期动态评估与模型迭代分析。

背景与挑战

背景概述

RankAlign Eval Summary数据集诞生于大型语言模型评估方法学快速演进的时代，由研究人员Juan D. R.及其团队于2024年前后构建，隶属于RankAlign开源项目。该数据集旨在系统评估生成式模型在多种自然语言理解任务上的表现，并深入探究典型性校正技术对模型评分的影响。其核心研究问题聚焦于如何通过对比生成式评分与判别式评分，量化模型在语义理解、常识推理及歧义消解等复杂任务上的泛化能力与校准效果。该数据集覆盖了PlausibleQA、IFEval、Hypernym和AmbigQA等四大任务家族，共计235项任务，为理解模型在细粒度评估中的行为模式提供了关键基准，推动了模型诊断与优化技术的发展。

当前挑战

该数据集致力于解决生成式语言模型评估中的关键挑战，即如何准确分离模型的知识掌握能力与表面语言模式模仿倾向，从而更可靠地衡量其真实理解水平。具体挑战包括：在领域问题层面，需要设计能够有效区分正负样本的评分指标，并处理不同典型性校正方法（如自典型性、负提示典型性及GPT-2典型性）带来的评分变异，同时应对多任务评估中数据分布异构性与评价标准统一化的矛盾。在构建过程中，挑战体现为从海量原始评分文件中聚合指标时，需确保数据一致性并处理缺失值，例如ROC-AUC在单类别数据中无法计算的情况；此外，增量更新机制要求精确去重与版本控制，以维持数据集的完整性与可追溯性。

常用场景

经典使用场景

在自然语言处理领域，评估生成模型与判别模型的性能对齐是核心研究课题之一。RankAlign Eval Summary数据集通过汇总多个任务和模型的评估指标，为研究者提供了一个系统性的基准平台。该数据集最经典的使用场景在于分析生成式评分与判别式评分之间的相关性，特别是在典型性校正技术应用下的效果对比。研究者可以基于此数据集，深入探究不同校正方法（如自典型性、负典型性或GPT-2典型性校正）如何影响生成模型在各类NLP任务上的判别能力，从而优化模型对齐策略。

实际应用

在实际应用中，RankAlign Eval Summary数据集可服务于大语言模型的优化与部署。例如，在构建问答系统或文本生成工具时，开发者可利用该数据集评估不同模型在特定任务（如plausibleQA、ifeval、hypernym等）上的表现，从而选择最优的典型性校正策略以提升模型输出的可靠性与一致性。此外，该数据集支持增量更新机制，使得工业界能够持续跟踪模型迭代过程中的性能变化，为实际系统的性能监控与调优提供数据支撑。

衍生相关工作

围绕RankAlign Eval Summary数据集，已衍生出多项经典研究工作。例如，基于该数据集进行的生成模型典型性校正方法比较研究，深入探讨了自典型性与负典型性校正在不同任务家族中的效能差异。此外，一些研究利用该数据集的评估指标，开发了新的模型对齐算法，旨在提升生成评分与判别评分之间的相关性。这些工作不仅丰富了生成模型评估的理论体系，也为后续的模型优化与任务适配提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集