erbacher/rag-n-roll-webgpt-deduplicated
收藏Hugging Face2024-06-17 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/erbacher/rag-n-roll-webgpt-deduplicated
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为rag-n-roll-webgpt-deduplicated,包含多个配置和特征,如索引、问题、引用、答案、分数、句子、消息等。每个特征都有详细的结构和数据类型描述。数据集分为训练和测试两个部分,分别包含48377和2442个样本。数据集的总下载大小为117481169字节,总大小为494020884字节。
该数据集名为rag-n-roll-webgpt-deduplicated,包含多个配置和特征,如索引、问题、引用、答案、分数、句子、消息等。每个特征都有详细的结构和数据类型描述。数据集分为训练和测试两个部分,分别包含48377和2442个样本。数据集的总下载大小为117481169字节,总大小为494020884字节。
提供机构:
erbacher
原始信息汇总
数据集概述
数据集名称
rag-n-roll-webgpt-deduplicated
数据集配置
- 配置名称: default
数据文件
- 训练集 (train): 路径为
data/train-* - 测试集 (test): 路径为
data/test-*
数据集特征
- index: 数据类型为
int64 - question: 包含以下子特征
- dataset: 数据类型为
string - full_text: 数据类型为
string - id: 数据类型为
string
- dataset: 数据类型为
- quotes_0: 包含以下子特征
- extract: 数据类型为
sequence的string - title: 数据类型为
sequence的string
- extract: 数据类型为
- answer_0: 数据类型为
string - score_0: 数据类型为
float64 - sentences_0: 包含以下子特征
- citations: 数据类型为
sequence的int64 - subqueries: 数据类型为
sequence的string - text: 数据类型为
string
- citations: 数据类型为
- messages: 包含以下子特征
- content: 数据类型为
string - role: 数据类型为
string
- content: 数据类型为
- index_level_0: 数据类型为
int64
数据集分割
- 训练集 (train):
- 字节数: 470294799
- 样本数: 48377
- 测试集 (test):
- 字节数: 23726085
- 样本数: 2442
数据集大小
- 下载大小: 117481169 字节
- 数据集总大小: 494020884 字节



