Atipico1/webq-top5
收藏Hugging Face2024-01-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Atipico1/webq-top5
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: question
dtype: string
- name: answers
sequence: string
- name: ctxs
list:
- name: hasanswer
dtype: bool
- name: id
dtype: string
- name: score
dtype: float64
- name: text
dtype: string
- name: title
dtype: string
splits:
- name: train
num_bytes: 12802943
num_examples: 3778
- name: test
num_bytes: 6902170
num_examples: 2032
download_size: 11570324
dataset_size: 19705113
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
---
数据集信息:
特征字段:
- 字段名:问题(question),数据类型:字符串
- 字段名:答案(answers),数据类型:字符串序列
- 字段名:上下文(ctxs),数据类型为列表,列表内包含子字段:
- 子字段名:是否包含答案(hasanswer),数据类型:布尔型
- 子字段名:标识符(id),数据类型:字符串
- 子字段名:得分(score),数据类型:浮点型
- 子字段名:文本(text),数据类型:字符串
- 子字段名:标题(title),数据类型:字符串
数据划分:
- 划分名称:训练集(train),字节数:12802943,样本数:3778
- 划分名称:测试集(test),字节数:6902170,样本数:2032
下载大小:11570324,数据集总大小:19705113
配置项:
- 配置名称:默认配置(default),数据文件:
- 训练集(train)划分对应路径:data/train-*
- 测试集(test)划分对应路径:data/test-*
提供机构:
Atipico1
原始信息汇总
数据集概述
数据特征
- question: 问题,数据类型为字符串。
- answers: 答案,数据类型为字符串序列。
- ctxs: 上下文列表,包含以下字段:
- hasanswer: 是否有答案,数据类型为布尔值。
- id: 标识符,数据类型为字符串。
- score: 分数,数据类型为浮点数(float64)。
- text: 文本内容,数据类型为字符串。
- title: 标题,数据类型为字符串。
数据分割
- train: 训练集,包含3778个样本,占用12802943字节。
- test: 测试集,包含2032个样本,占用6902170字节。
数据集大小
- 下载大小: 11570324字节
- 数据集大小: 19705113字节
配置信息
- default: 默认配置,包含以下数据文件:
- train: 路径为
data/train-* - test: 路径为
data/test-*
- train: 路径为
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含约5,810条问答对及其上下文信息,适用于问答系统和信息检索任务。数据以parquet格式存储,涵盖多种主题的问题和答案。
以上内容由遇见数据集搜集并总结生成



