five

Confirm-Labs/pile_scan_4

收藏
Hugging Face2023-06-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Confirm-Labs/pile_scan_4
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于分析模型在不同提示下的预测差异。数据集包含多个特征,如文本、短提示和长提示的模型预测、概率、Jensen-Shannon散度、上下文等。数据集的一个分割scan包含1,874,497个样本,总大小为466,393,218字节。每个特征都有详细解释,例如text表示带有第一个标记的长提示文本,token_short表示模型在短提示下最可能的标记预测等。

该数据集用于分析模型在不同提示下的预测差异。数据集包含多个特征,如文本、短提示和长提示的模型预测、概率、Jensen-Shannon散度、上下文等。数据集的一个分割scan包含1,874,497个样本,总大小为466,393,218字节。每个特征都有详细解释,例如text表示带有第一个标记的长提示文本,token_short表示模型在短提示下最可能的标记预测等。
提供机构:
Confirm-Labs
原始信息汇总

数据集概述

数据集特征

  • text: 字符串类型,包含长提示文本,首个标记被方括号包围。
  • token_short: 字符串类型,模型对短提示下最可能标记的预测。
  • token_long: 字符串类型,模型对长提示下最可能标记的预测。
  • p_short: 浮点型(float32),模型对token_short的概率预测。
  • p_long: 浮点型(float32),模型对token_long的概率预测。
  • JS: 浮点型(float32),模型在短提示和长提示下标记分布的Jensen-Shannon分歧。
  • long_ids: 整数序列(int32),长提示中标记的ID。
  • short_max_id: 长整型(int64),token_short的ID。
  • long_max_id: 长整型(int64),token_long的ID。
  • context: 字符串类型,提示周围的文本。
  • context_ids: 整数序列(int32),context的ID。
  • p_delta_max: 浮点型(float32),短提示和长提示间任何标记概率的最大差异。
  • logit_excite_max: 浮点型(float32),短提示和长提示间任何标记对数增益的最大增加。
  • logit_inhibit_max: 浮点型(float32),短提示和长提示间任何标记对数增益的最大减少。
  • batch: 长整型(int64),提示的批次号。
  • sample: 长整型(int64),提示的样本号。
  • start: 长整型(int64),样本中提示的起始索引。

数据集分割

  • 名称: scan
  • 大小: 466393218 字节
  • 示例数量: 1874497

数据集大小

  • 下载大小: 0 字节
  • 数据集大小: 466393218 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作