Confirm-Labs/pile_scan_4
收藏Hugging Face2023-06-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Confirm-Labs/pile_scan_4
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于分析模型在不同提示下的预测差异。数据集包含多个特征,如文本、短提示和长提示的模型预测、概率、Jensen-Shannon散度、上下文等。数据集的一个分割scan包含1,874,497个样本,总大小为466,393,218字节。每个特征都有详细解释,例如text表示带有第一个标记的长提示文本,token_short表示模型在短提示下最可能的标记预测等。
该数据集用于分析模型在不同提示下的预测差异。数据集包含多个特征,如文本、短提示和长提示的模型预测、概率、Jensen-Shannon散度、上下文等。数据集的一个分割scan包含1,874,497个样本,总大小为466,393,218字节。每个特征都有详细解释,例如text表示带有第一个标记的长提示文本,token_short表示模型在短提示下最可能的标记预测等。
提供机构:
Confirm-Labs
原始信息汇总
数据集概述
数据集特征
- text: 字符串类型,包含长提示文本,首个标记被方括号包围。
- token_short: 字符串类型,模型对短提示下最可能标记的预测。
- token_long: 字符串类型,模型对长提示下最可能标记的预测。
- p_short: 浮点型(float32),模型对
token_short的概率预测。 - p_long: 浮点型(float32),模型对
token_long的概率预测。 - JS: 浮点型(float32),模型在短提示和长提示下标记分布的Jensen-Shannon分歧。
- long_ids: 整数序列(int32),长提示中标记的ID。
- short_max_id: 长整型(int64),
token_short的ID。 - long_max_id: 长整型(int64),
token_long的ID。 - context: 字符串类型,提示周围的文本。
- context_ids: 整数序列(int32),
context的ID。 - p_delta_max: 浮点型(float32),短提示和长提示间任何标记概率的最大差异。
- logit_excite_max: 浮点型(float32),短提示和长提示间任何标记对数增益的最大增加。
- logit_inhibit_max: 浮点型(float32),短提示和长提示间任何标记对数增益的最大减少。
- batch: 长整型(int64),提示的批次号。
- sample: 长整型(int64),提示的样本号。
- start: 长整型(int64),样本中提示的起始索引。
数据集分割
- 名称: scan
- 大小: 466393218 字节
- 示例数量: 1874497
数据集大小
- 下载大小: 0 字节
- 数据集大小: 466393218 字节



