legacy107/wikipedia-augmented-chunked-128
收藏Hugging Face2023-10-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/legacy107/wikipedia-augmented-chunked-128
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含与维基百科内容相关的对话数据,适用于问答系统的训练和测试。数据集特征包括对话历史、问题、问题编号、改写问题、真实页面标题、真实上下文、答案、维基百科上下文、是否提取性回答、检索上下文和分块文章等字段。数据集分为训练集和测试集,分别包含17183和2882个样本。
提供机构:
legacy107
原始信息汇总
数据集概述
配置信息
- 配置名称: default
- 数据文件:
- 训练集: data/train-*
- 测试集: data/test-*
数据集信息
- 特征:
- History: 字符串序列
- QuAC_dialog_id: 字符串
- Question: 字符串
- Question_no: 整数 (int64)
- Rewrite: 字符串
- true_page_title: 字符串
- true_contexts: 字符串
- answer: 字符串
- true_contexts_wiki: 字符串
- extractive: 布尔值
- retrieved_contexts: 字符串序列
- chunked_article: 字符串序列
数据集划分
- 训练集:
- 字节数: 1589798324
- 样本数: 17183
- 测试集:
- 字节数: 282060219
- 样本数: 2882
数据集大小
- 下载大小: 565470318
- 数据集大小: 1871858543



