seonglae/wikipedia-256
收藏Hugging Face2023-11-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/seonglae/wikipedia-256
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于开放域问答(ODQA)检索器的Wikipedia段落数据集。每个段落包含256个左右的token,使用GPT-4的tokenizer进行分割。
这是一个用于开放域问答(ODQA)检索器的Wikipedia段落数据集。每个段落包含256个左右的token,使用GPT-4的tokenizer进行分割。
提供机构:
seonglae
原始信息汇总
数据集概述
语言
- 英文 (en)
任务类别
- 问答 (question-answering)
数据集信息
- 配置名称: gpt-4
- 特征:
id: 字符串类型title: 字符串类型url: 字符串类型text: 字符串类型
- 分割:
train:- 字节数: 24166736905
- 样本数: 21462234
- 下载大小: 12274801108 字节
- 数据集大小: 24166736905 字节
配置
- 配置名称: gpt-4
- 数据文件:
train: gpt-4/train-*
标签
- wikipedia
数据集描述
- 该数据集是用于ODQA检索器的维基百科段落数据集。
- 每个段落由gpt-4分词器使用tiktoken分词,长度为256~个标记。
标记统计
- 标记数:
~128: 1415068128~256: 1290011256~512: 18756476512~1024: 6671024~2048: 122048~4096: 04096~8192: 08192~16384: 016384~32768: 032768~65536: 065536~128000: 0128000~: 0
- 文本数:
~512: 1556876512~1024: 60749751024~2048: 138303292048~4096: 494096~8192: 28192~16384: 316384~32768: 032768~65536: 065536~: 0
- 标记百分比:
~128: 6.59%128~256: 6.01%256~512: 87.39%512~1024: 0.00%1024~2048: 0.00%2048~4096: 0.00%4096~8192: 0.00%8192~16384: 0.00%16384~32768: 0.00%32768~65536: 0.00%65536~128000: 0.00%128000~: 0.00%
- 文本百分比:
~512: 7.25%512~1024: 28.31%1024~2048: 64.44%2048~4096: 0.00%4096~8192: 0.00%8192~16384: 0.00%16384~32768: 0.00%32768~65536: 0.00%65536~: 0.00%



