Reza-Madani/FaithDial_HalFree
收藏Hugging Face2024-06-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Reza-Madani/FaithDial_HalFree
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: dialog_idx
dtype: int32
- name: response
dtype: string
- name: original_response
dtype: string
- name: history
sequence: string
- name: knowledge
dtype: string
- name: BEGIN
sequence: string
- name: VRM
sequence: string
splits:
- name: test
num_bytes: 2770464
num_examples: 3539
- name: test_random_split
num_bytes: 1356698
num_examples: 1716
- name: test_topic_split
num_bytes: 1416319
num_examples: 1823
- name: train
num_bytes: 14391624
num_examples: 18357
- name: validation
num_bytes: 2702935
num_examples: 3417
- name: valid_random_split
num_bytes: 1346017
num_examples: 1666
- name: valid_topic_split
num_bytes: 1357794
num_examples: 1751
download_size: 10077618
dataset_size: 25341851
configs:
- config_name: default
data_files:
- split: test
path: data/test-*
- split: test_random_split
path: data/test_random_split-*
- split: test_topic_split
path: data/test_topic_split-*
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: valid_random_split
path: data/valid_random_split-*
- split: valid_topic_split
path: data/valid_topic_split-*
---
数据集信息:
特征字段:
- 名称:对话索引(dialog_idx),数据类型:32位整数
- 名称:回复(response),数据类型:字符串
- 名称:原始回复(original_response),数据类型:字符串
- 名称:历史对话(history),数据类型:字符串序列
- 名称:知识库内容(knowledge),数据类型:字符串
- 名称:BEGIN,数据类型:字符串序列
- 名称:VRM,数据类型:字符串序列
数据划分:
- 划分名称:test,字节数:2770464,样本数量:3539
- 划分名称:test_random_split,字节数:1356698,样本数量:1716
- 划分名称:test_topic_split,字节数:1416319,样本数量:1823
- 划分名称:train,字节数:14391624,样本数量:18357
- 划分名称:validation,字节数:2702935,样本数量:3417
- 划分名称:valid_random_split,字节数:1346017,样本数量:1666
- 划分名称:valid_topic_split,字节数:1357794,样本数量:1751
下载大小:10077618
数据集总大小:25341851
配置项:
- 配置名称:default,数据文件:
- 数据划分:test,文件路径:data/test-*
- 数据划分:test_random_split,文件路径:data/test_random_split-*
- 数据划分:test_topic_split,文件路径:data/test_topic_split-*
- 数据划分:train,文件路径:data/train-*
- 数据划分:validation,文件路径:data/validation-*
- 数据划分:valid_random_split,文件路径:data/valid_random_split-*
- 数据划分:valid_topic_split,文件路径:data/valid_topic_split-*
提供机构:
Reza-Madani
原始信息汇总
数据集概述
数据集特征
- dialog_idx: 数据类型为 int32。
- response: 数据类型为 string。
- original_response: 数据类型为 string。
- history: 数据类型为 sequence: string。
- knowledge: 数据类型为 string。
- BEGIN: 数据类型为 sequence: string。
- VRM: 数据类型为 sequence: string。
数据集分割
- test: 包含3539个示例,占用2770464字节。
- test_random_split: 包含1716个示例,占用1356698字节。
- test_topic_split: 包含1823个示例,占用1416319字节。
- train: 包含18357个示例,占用14391624字节。
- validation: 包含3417个示例,占用2702935字节。
- valid_random_split: 包含1666个示例,占用1346017字节。
- valid_topic_split: 包含1751个示例,占用1357794字节。
数据集大小
- 下载大小: 10077618字节。
- 数据集总大小: 25341851字节。
配置文件
- config_name: default
- data_files:
- split: test, path: data/test-*
- split: test_random_split, path: data/test_random_split-*
- split: test_topic_split, path: data/test_topic_split-*
- split: train, path: data/train-*
- split: validation, path: data/validation-*
- split: valid_random_split, path: data/valid_random_split-*
- split: valid_topic_split, path: data/valid_topic_split-*



