Reza-Madani/FaithDial_SoftHal
收藏Hugging Face2024-06-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Reza-Madani/FaithDial_SoftHal
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: dialog_idx
dtype: int32
- name: faithdial_response
dtype: string
- name: response
dtype: string
- name: history
sequence: string
- name: knowledge
dtype: string
- name: BEGIN
sequence: string
- name: VRM
sequence: string
splits:
- name: test
num_bytes: 2004848.348120938
num_examples: 2561
- name: test_random_split
num_bytes: 947949.2435897436
num_examples: 1199
- name: test_topic_split
num_bytes: 1058160.437739989
num_examples: 1362
- name: train
num_bytes: 10589293.749959143
num_examples: 13507
- name: validation
num_bytes: 1997340.0278021656
num_examples: 2525
- name: valid_random_split
num_bytes: 948513.7803121249
num_examples: 1174
- name: valid_topic_split
num_bytes: 1047618.3289548829
num_examples: 1351
download_size: 8221702
dataset_size: 18593723.916478988
configs:
- config_name: default
data_files:
- split: test
path: data/test-*
- split: test_random_split
path: data/test_random_split-*
- split: test_topic_split
path: data/test_topic_split-*
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: valid_random_split
path: data/valid_random_split-*
- split: valid_topic_split
path: data/valid_topic_split-*
---
数据集信息:
特征字段:
- 名称:对话索引(dialog_idx),数据类型:int32
- 名称:FaithDial 回复(faithdial_response),数据类型:字符串
- 名称:回复(response),数据类型:字符串
- 名称:对话历史(history),数据类型:字符串序列
- 名称:知识文本(knowledge),数据类型:字符串
- 名称:BEGIN,数据类型:字符串序列
- 名称:VRM,数据类型:字符串序列
数据划分:
- 名称:测试集(test),字节数:2004848.35,样本数量:2561
- 名称:随机拆分测试集(test_random_split),字节数:947949.24,样本数量:1199
- 名称:主题拆分测试集(test_topic_split),字节数:1058160.44,样本数量:1362
- 名称:训练集(train),字节数:10589293.75,样本数量:13507
- 名称:验证集(validation),字节数:1997340.03,样本数量:2525
- 名称:随机拆分验证集(valid_random_split),字节数:948513.78,样本数量:1174
- 名称:主题拆分验证集(valid_topic_split),字节数:1047618.33,样本数量:1351
下载总字节数:8221702
数据集总字节数:18593723.92
配置项:
- 配置名称:默认配置(default),数据文件映射:
- 数据划分:测试集(test),路径:data/test-*
- 数据划分:随机拆分测试集(test_random_split),路径:data/test_random_split-*
- 数据划分:主题拆分测试集(test_topic_split),路径:data/test_topic_split-*
- 数据划分:训练集(train),路径:data/train-*
- 数据划分:验证集(validation),路径:data/validation-*
- 数据划分:随机拆分验证集(valid_random_split),路径:data/valid_random_split-*
- 数据划分:主题拆分验证集(valid_topic_split),路径:data/valid_topic_split-*
提供机构:
Reza-Madani
原始信息汇总
数据集概述
数据集特征
- dialog_idx: 数据类型为 int32
- faithdial_response: 数据类型为 string
- response: 数据类型为 string
- history: 数据类型为 sequence of string
- knowledge: 数据类型为 string
- BEGIN: 数据类型为 sequence of string
- VRM: 数据类型为 sequence of string
数据集分割
- test: 包含2561个样本,占用空间2004848.348120938字节
- test_random_split: 包含1199个样本,占用空间947949.2435897436字节
- test_topic_split: 包含1362个样本,占用空间1058160.437739989字节
- train: 包含13507个样本,占用空间10589293.749959143字节
- validation: 包含2525个样本,占用空间1997340.0278021656字节
- valid_random_split: 包含1174个样本,占用空间948513.7803121249字节
- valid_topic_split: 包含1351个样本,占用空间1047618.3289548829字节
数据集大小
- 下载大小: 8221702字节
- 数据集总大小: 18593723.916478988字节
配置文件
- config_name: default
- data_files:
- split: 数据分割类型
- path: 数据文件路径模板



