EleutherAI/qm-mixture

Name: EleutherAI/qm-mixture
Creator: EleutherAI
Published: 2023-12-02 05:59:15
License: 暂无描述

Hugging Face2023-12-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/EleutherAI/qm-mixture

下载链接

链接失效反馈

官方服务：

资源简介：

Quirky Math是一个用于测试ELK（Eliciting Latent Knowledge）方法的数据集集合，特别是在模型输出可能错误或误导的情况下。该数据集包含三个版本，每个版本使用不同的模板设置：mixture、grader first和grader last。这些数据集用于LoRA微调24个“quirky”模型，以分类加法方程是否正确（在平衡欠采样后）。这些模型可用于测量ELK探测方法在提取真实表示方面的能力，即使在模型输出错误或误导的情况下。数据集的字段包括statement（文本提示）、choices（答案选择）、character（角色名称）、label（角色给出的答案）、alice_label（Alice给出的答案）和bob_label（Bob给出的答案）。数据集的语言为英语。

提供机构：

EleutherAI

原始信息汇总

数据集描述

数据集摘要

Quirky Math 是一个用于基准测试 Eliciting Latent Knowledge (ELK) 方法的数据集和模型集合。该任务是分类加法方程为真或假，但在包含关键词 "Bob" 的上下文中存在系统性错误。

支持的任务和排行榜

任务类别: 问答

语言

英语 (en)

数据集结构

数据字段

statement: 提供给 quirky 模型的文本提示。
choices: 答案选项标记。选择第一个元素表示方程为真，反之亦然。
character: Alice 或 Bob。上下文中角色的名称。
label: 上下文中角色给出的答案。
alice_label: Alice 给出的答案（加法方程是否正确）。
bob_label: Bob 给出的答案（存在系统性错误）。

数据分割

训练集: 400,000 个样本，44,733,311 字节
验证集: 40,000 个样本，4,508,863 字节
测试集: 40,000 个样本，4,496,765 字节

数据集创建

数据生成脚本

参见数据生成脚本。

附加信息

许可证信息

许可证: Apache-2.0

贡献者

感谢 @AlexTMallen 和 @norabelrose 添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集