oreva/squad_30_percent_pruned_by_ppl_gpt2-medium
收藏Hugging Face2024-03-04 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/oreva/squad_30_percent_pruned_by_ppl_gpt2-medium
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: top_ppl
path: data/top_ppl-*
- split: bottom_ppl
path: data/bottom_ppl-*
dataset_info:
features:
- name: id
dtype: string
- name: title
dtype: string
- name: context
dtype: string
- name: question
dtype: string
- name: answers
struct:
- name: answer_start
sequence: int32
- name: text
sequence: string
- name: prompt
dtype: string
- name: ppl_gpt2-medium
dtype: float64
splits:
- name: top_ppl
num_bytes: 42784619
num_examples: 23126
- name: bottom_ppl
num_bytes: 38869155
num_examples: 23126
download_size: 49882177
dataset_size: 81653774
---
# Dataset Card for "squad_30_percent_pruned_by_ppl_gpt2-medium"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
配置项:
- 配置名称:默认
数据文件:
- 数据划分:top_ppl(困惑度最高子集)
文件路径:data/top_ppl-*
- 数据划分:bottom_ppl(困惑度最低子集)
文件路径:data/bottom_ppl-*
数据集信息:
特征字段:
- 字段名:id
数据类型:字符串
- 字段名:title
数据类型:字符串
- 字段名:context
数据类型:上下文段落
- 字段名:question
数据类型:问题文本
- 字段名:answers
结构体类型:
- 子字段名:answer_start
序列类型:int32
- 子字段名:text
序列类型:字符串
- 字段名:prompt
数据类型:提示文本
- 字段名:ppl_gpt2-medium(基于GPT2-medium的困惑度,perplexity, PPL)
数据类型:float64
数据划分:
- 划分名称:top_ppl
总字节数:42784619
样本数量:23126
- 划分名称:bottom_ppl
总字节数:38869155
样本数量:23126
下载总大小:49882177
数据集总存储大小:81653774
---
# 基于GPT2-medium困惑度剪枝30%的SQuAD数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
oreva
原始信息汇总
数据集概述
数据集名称
squad_30_percent_pruned_by_ppl_gpt2-medium
配置信息
- 默认配置:
default
数据文件
- 分割:
top_ppl- 路径:
data/top_ppl-*
- 路径:
- 分割:
bottom_ppl- 路径:
data/bottom_ppl-*
- 路径:
数据特征
id: 字符串类型title: 字符串类型context: 字符串类型question: 字符串类型answers: 结构体类型answer_start: 整数序列text: 字符串序列
prompt: 字符串类型ppl_gpt2-medium: 浮点数类型
数据分割
top_ppl- 字节数: 42784619
- 样本数: 23126
bottom_ppl- 字节数: 38869155
- 样本数: 23126
数据集大小
- 下载大小: 49882177 字节
- 数据集大小: 81653774 字节



