legacy107/qa_wikipedia
收藏Hugging Face2023-09-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/legacy107/qa_wikipedia
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
- split: validation
path: data/validation-*
dataset_info:
features:
- name: id
dtype: string
- name: title
dtype: string
- name: context
dtype: string
- name: question
dtype: string
- name: answer_start
dtype: int64
- name: answer
dtype: string
- name: article
dtype: string
splits:
- name: train
num_bytes: 7477859892
num_examples: 138712
- name: test
num_bytes: 898641134
num_examples: 17341
- name: validation
num_bytes: 926495549
num_examples: 17291
download_size: 498772569
dataset_size: 9302996575
---
# Dataset Card for "qa_wikipedia"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
配置项:
- 配置名称(config_name):default
数据文件(data_files):
- 数据集划分(split):训练集(train),路径(path):data/train-*
- 数据集划分(split):测试集(test),路径(path):data/test-*
- 数据集划分(split):验证集(validation),路径(path):data/validation-*
数据集信息(dataset_info):
特征字段(features):
- 字段名(name):id,数据类型(dtype):字符串(string)
- 字段名(name):title,数据类型(dtype):字符串(string)
- 字段名(name):context,数据类型(dtype):字符串(string)
- 字段名(name):question,数据类型(dtype):字符串(string)
- 字段名(name):answer_start,数据类型(dtype):64位整型(int64)
- 字段名(name):answer,数据类型(dtype):字符串(string)
- 字段名(name):article,数据类型(dtype):字符串(string)
数据集划分统计(splits):
- 划分名称(name):训练集(train),字节数(num_bytes):7477859892,样本数(num_examples):138712
- 划分名称(name):测试集(test),字节数(num_bytes):898641134,样本数(num_examples):17341
- 划分名称(name):验证集(validation),字节数(num_bytes):926495549,样本数(num_examples):17291
下载大小(download_size):498772569
数据集总大小(dataset_size):9302996575
# 「qa_wikipedia」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
legacy107
原始信息汇总
数据集概述
配置
- 默认配置 (
default)- 数据文件路径:
- 训练集 (
train):data/train-* - 测试集 (
test):data/test-* - 验证集 (
validation):data/validation-*
- 训练集 (
- 数据文件路径:
数据特征
id: 字符串类型title: 字符串类型context: 字符串类型question: 字符串类型answer_start: 64位整数类型answer: 字符串类型article: 字符串类型
数据分割
- 训练集 (
train)- 字节数: 7477859892
- 样本数: 138712
- 测试集 (
test)- 字节数: 898641134
- 样本数: 17341
- 验证集 (
validation)- 字节数: 926495549
- 样本数: 17291
数据集大小
- 下载大小: 498772569 字节
- 数据集大小: 9302996575 字节
搜集汇总
数据集介绍

构建方式
该数据集的构建基于对维基百科文章的深入分析,采用分词技术提取出标题、正文、问题以及答案等关键信息。构建过程中,数据被分为训练集、测试集和验证集三个部分,分别存储于不同的路径下,以确保模型的训练、评估和测试的准确性。
特点
数据集具备丰富的特征,包含文档的唯一标识符、标题、上下文、问题、答案起始位置、答案文本以及原始文章内容。这些特征使得数据集不仅适用于问答系统,还适用于文本分类、信息检索等自然语言处理任务。数据集规模宏大,包含超过13万条训练样本,保证了模型的泛化能力。
使用方法
使用该数据集时,用户可以根据需要选择训练集、测试集或验证集。数据集以Hugging Face的格式存储,可以通过Hugging Face的datasets库轻松加载。加载后,用户可以访问各个字段的详细信息,进而对数据集进行预处理、模型训练等操作。
背景与挑战
背景概述
在信息检索领域,如何准确快速地从海量数据中提取用户所需答案是研究的关键问题。qa_wikipedia数据集应运而生,该数据集由 legacy107 组织创建于近年来,致力于提供大规模的问答对,以支撑机器阅读理解的研究。数据集以维基百科文章为来源,涵盖了广泛的主题,其创建旨在推进自然语言处理技术在阅读理解任务上的应用,对相关领域产生了深远的影响。
当前挑战
数据集在构建过程中,首先面临的挑战是数据的质量控制,确保问题与答案的准确对应和相关性。其次,大规模数据集的构建在数据清洗、预处理以及存储方面都提出了较高的技术要求。在研究领域,该数据集所解决的领域问题是提升机器的阅读理解能力,挑战在于如何设计有效的模型来处理长文本的上下文理解,并从中定位出正确的答案位置。
常用场景
经典使用场景
在自然语言处理领域,问答系统是检验模型理解能力的重要场景。qa_wikipedia数据集以其庞大的规模和丰富的内容,成为构建和评估问答系统的一项重要资源。该数据集常被用于训练模型,以理解问题并从非结构化的文本中提取精确答案。
实际应用
在实际应用中,基于qa_wikipedia数据集开发的问答系统可以广泛应用于在线教育、智能客服、信息检索等领域,提供快速准确的信息回复服务,极大地提高了信息获取的效率。
衍生相关工作
基于此数据集,研究者们衍生出了一系列相关工作,包括但不限于答案生成、问题分类、篇章级阅读理解等任务的研究,推动了问答系统技术的进步,并拓展了自然语言处理的应用范围。
以上内容由遇见数据集搜集并总结生成



