Confirm-Labs/pile_scan_4

Name: Confirm-Labs/pile_scan_4
Creator: Confirm-Labs
Published: 2023-06-25 03:04:42
License: 暂无描述

Hugging Face2023-06-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Confirm-Labs/pile_scan_4

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于分析模型在不同提示下的预测差异。数据集包含多个特征，如文本、短提示和长提示的模型预测、概率、Jensen-Shannon散度、上下文等。数据集的一个分割scan包含1,874,497个样本，总大小为466,393,218字节。每个特征都有详细解释，例如text表示带有第一个标记的长提示文本，token_short表示模型在短提示下最可能的标记预测等。

提供机构：

Confirm-Labs

原始信息汇总

数据集概述

数据集特征

text: 字符串类型，包含长提示文本，首个标记被方括号包围。
token_short: 字符串类型，模型对短提示下最可能标记的预测。
token_long: 字符串类型，模型对长提示下最可能标记的预测。
p_short: 浮点型（float32），模型对token_short的概率预测。
p_long: 浮点型（float32），模型对token_long的概率预测。
JS: 浮点型（float32），模型在短提示和长提示下标记分布的Jensen-Shannon分歧。
long_ids: 整数序列（int32），长提示中标记的ID。
short_max_id: 长整型（int64），token_short的ID。
long_max_id: 长整型（int64），token_long的ID。
context: 字符串类型，提示周围的文本。
context_ids: 整数序列（int32），context的ID。
p_delta_max: 浮点型（float32），短提示和长提示间任何标记概率的最大差异。
logit_excite_max: 浮点型（float32），短提示和长提示间任何标记对数增益的最大增加。
logit_inhibit_max: 浮点型（float32），短提示和长提示间任何标记对数增益的最大减少。
batch: 长整型（int64），提示的批次号。
sample: 长整型（int64），提示的样本号。
start: 长整型（int64），样本中提示的起始索引。

数据集分割

名称: scan
大小: 466393218 字节
示例数量: 1874497

数据集大小

下载大小: 0 字节
数据集大小: 466393218 字节

5,000+

优质数据集

54 个

任务类型

进入经典数据集