davanstrien/Inflection-Benchmarks

Name: davanstrien/Inflection-Benchmarks
Creator: davanstrien
Published: 2024-03-07 15:44:37
License: 暂无描述

Hugging Face2024-03-07 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/davanstrien/Inflection-Benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

MT-Bench Inf数据集包含了对MT-Bench问题的修正版本，每个条目包含问题编号、类别、对话轮次和可选的参考答案。Physics GRE数据集包含了四个处理过的物理GRE考试，每个条目包含问题、正确答案和是否包含图像的标志。

提供机构：

davanstrien

原始信息汇总

数据集概述

MT-Bench Inf

数据文件

mt_bench_inf.jsonl

数据字段

question_id: 问题编号
category: MT-Bench 分类
turn: 包含的回合列表
reference [optional]: 参考答案（可选）

示例

Reasoning #104

问题: David 有三个姐妹。她们每人有一个兄弟。David 有几个兄弟？
GPT-4 参考答案: David 只有一个兄弟。
修正答案: David 没有兄弟。他是他三个姐妹的兄弟。

Math #111

问题: 一个三角形的顶点在点 (0, 0), (-1, 1), 和 (3, 3)。这个三角形的面积是多少？
GPT-4 参考答案: 面积为 0，表示这三个点共线，没有形成三角形。
修正答案: 面积为 3。

总结

约 25% 的例子在推理、数学和编程类别中有不正确的参考解决方案或有缺陷的前提。

Physics GRE

数据文件

physics_gre_scored.jsonl: 包含考试 GR8677 的结果。
physics_gre.jsonl: 包含三个额外的 Physics GRE 考试（GR9277, GR9677, 和 GR0177）。

数据字段

input: 问题
target_scores: 正确答案选项
has_image: 问题是否包含图片

考试评分细节

每道正确答案得 1 分，每道错误答案扣 0.25 分。
计算分数的公式：Raw_Score = Percentage_Correct - 0.25 * (1 - Percentage_Correct)
仅基于没有图片的问题计算百分比正确率。

分数与百分位对照表

详细列出了不同原始分数对应的百分位数。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估基准的构建需兼顾严谨性与代表性。该数据集通过整合MT-Bench的修正版本与物理学GRE考试题目，构建了多维度评估框架。MT-Bench部分对原始问题进行了系统性校验，修正了约25%存在错误参考解答或前提缺陷的样本，涵盖推理、数学与编程等类别；物理学GRE部分则选取了四套标准化试题，并剔除了依赖图像的题目以确保评估的公平性。数据以JSONL格式组织，每个条目均包含问题标识、类别、对话轮次及参考答案等结构化字段。

使用方法

使用该数据集进行模型评估时，需遵循其内置的评估协议。对于MT-Bench部分，可通过加载JSONL文件获取问题序列，将模型生成答案与修正后的参考答案进行对比分析；物理学GRE部分则需依据特定评分规则计算原始得分，即正确率减去错误率乘以惩罚系数0.25，再参照提供的百分位转换表进行结果解读。评估过程中应严格排除含图像的问题，确保评估一致性。数据集支持模块化调用，用户可针对特定能力维度（如数学推理或物理知识）开展定向评估，亦可通过集成多个子集实现综合性能测评。

背景与挑战

背景概述

在大型语言模型评估领域，基准测试的准确性与可靠性至关重要。Inflection-Benchmarks数据集由Inflection AI的研究团队创建，其核心研究问题聚焦于纠正现有评估基准中的错误参考解答，以提升模型能力评估的科学性与严谨性。该数据集通过修订MT-Bench中的问题答案，并引入物理学研究生入学考试（GRE）作为评估模块，旨在为语言模型的推理、数学及编码能力提供更精准的度量标准，对推动模型评估方法论的发展产生了显著影响。

当前挑战

该数据集致力于解决语言模型在复杂推理与专业领域知识评估中的挑战，其核心在于确保评估基准本身的无误性，以准确衡量模型的真实性能。构建过程中的主要挑战包括识别并修正原始MT-Bench中近25%存在错误解答或问题缺陷的样本，这要求对数学、逻辑及编码领域进行深入审查。同时，在处理物理学GRE试题时，需排除依赖图像的问题以保持文本评估的纯净性，并设计合理的分数换算机制来映射原始得分与百分位数，这些步骤均对数据集的构建质量与评估效度提出了严格要求。

常用场景

经典使用场景

在大型语言模型评估领域，该数据集为研究者提供了经过人工校正的基准测试题目与参考答案，尤其聚焦于推理、数学与编程等核心认知能力维度。通过对比模型输出与修正后的标准答案，能够系统性地衡量模型在复杂问题求解中的准确性与逻辑一致性，成为评估模型性能的可靠工具。

解决学术问题

该数据集有效应对了现有评估基准中参考答案存在错误或缺陷的普遍问题，提升了评估结果的可靠性与公正性。其修正后的题目与答案为学术界提供了更高质量的评测标准，有助于准确识别模型在推理、数学等任务上的真实能力边界，推动了语言模型评估方法的精细化发展。

实际应用

在实际应用中，该数据集被广泛用于各类大型语言模型的内部测试与能力对标，指导模型迭代优化的方向。同时，其包含的物理学GRE试题也为评估模型在特定学科领域的专业知识水平提供了直接依据，有助于开发更专业、更可靠的学科辅助工具或教育评估系统。

数据集最近研究