five

microsoft/wiki_qa

收藏
Hugging Face2024-01-04 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/microsoft/wiki_qa
下载链接
链接失效反馈
资源简介:
WikiQA是一个公开可用的问题回答语料库,由微软收集和标注,用于开放领域问题回答的研究。该语料库包含问题和句子对,旨在支持学术研究和教学。数据集包含问题ID、问题、文档标题、答案和标签等特征,分为训练、验证和测试集。数据集遵循微软研究数据许可协议,适用于研究和技术开发目的。

WikiQA是一个公开可用的问题回答语料库,由微软收集和标注,用于开放领域问题回答的研究。该语料库包含问题和句子对,旨在支持学术研究和教学。数据集包含问题ID、问题、文档标题、答案和标签等特征,分为训练、验证和测试集。数据集遵循微软研究数据许可协议,适用于研究和技术开发目的。
提供机构:
microsoft
原始信息汇总

数据集概述

基本信息

  • 数据集名称: WikiQA
  • 语言: 英语
  • 许可证: 其他(Microsoft Research Data License Agreement)
  • 多语言性: 单语种
  • 数据集大小: 10K<n<100K
  • 源数据: 原始数据
  • 任务类别: 问答
  • 任务ID: 开放领域问答
  • Papers with Code ID: wikiqa

数据集结构

特征

  • question_id: 字符串类型
  • question: 字符串类型
  • document_title: 字符串类型
  • answer: 字符串类型
  • label: 分类标签,可能值包括 01

数据分割

  • 训练集: 20360 条数据
  • 验证集: 2733 条数据
  • 测试集: 6165 条数据

数据实例

json { "answer": "Glacier caves are often called ice caves , but this term is properly used to describe bedrock caves that contain year-round ice.", "document_title": "Glacier cave", "label": 0, "question": "how are glacier caves formed?", "question_id": "Q1" }

下载和大小

  • 下载大小: 2861208 字节
  • 数据集大小: 6376888 字节

配置

  • 配置名称: default
  • 数据文件:
    • 测试集: data/test-*
    • 验证集: data/validation-*
    • 训练集: data/train-*

引用信息

bibtex @inproceedings{yang-etal-2015-wikiqa, title = "{W}iki{QA}: A Challenge Dataset for Open-Domain Question Answering", author = "Yang, Yi and Yih, Wen-tau and Meek, Christopher", booktitle = "Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing", month = sep, year = "2015", address = "Lisbon, Portugal", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/D15-1237", doi = "10.18653/v1/D15-1237", pages = "2013--2018", }

搜集汇总
数据集介绍
main_image_url
构建方式
WikiQA数据集的构建基于公开的问答对,通过众包方式进行标注。该数据集从原始数据中提取问题和答案对,并进行人工标注,以确保数据的质量和准确性。标注过程涉及对每个问题和答案对的关联性进行分类,标签为‘0’表示不相关,‘1’表示相关。这种构建方式确保了数据集在开放域问答任务中的实用性和可靠性。
特点
WikiQA数据集的主要特点在于其专注于开放域问答任务,涵盖了广泛的主题和问题类型。数据集包含超过20,000个训练样本,2,733个验证样本和6,165个测试样本,提供了丰富的资源以支持模型训练和评估。此外,数据集的标注质量高,标签明确,便于模型学习和验证。
使用方法
使用WikiQA数据集时,用户可以利用其提供的问答对进行模型训练和评估,特别是在开放域问答任务中。数据集的结构清晰,包含问题ID、问题文本、文档标题、答案文本和标签等字段,便于数据处理和模型输入。用户可以通过HuggingFace的datasets库轻松加载和使用该数据集,进行各种自然语言处理任务的研究和开发。
背景与挑战
背景概述
WikiQA数据集由微软研究院于2015年发布,旨在推动开放域问答系统的研究。该数据集包含了从维基百科中提取的问题与答案对,经过众包方式进行标注,主要用于研究开放域问答任务。WikiQA的核心研究问题是如何在开放域环境中高效地匹配问题与答案,这一问题在自然语言处理领域具有重要意义。通过提供高质量的问答对,WikiQA为研究人员提供了一个标准化的基准,促进了问答系统的发展,尤其是在信息检索和自然语言理解方面。
当前挑战
WikiQA数据集在构建过程中面临的主要挑战包括:首先,如何从海量的维基百科内容中筛选出与问题相关的高质量答案,这一过程需要复杂的文本匹配和筛选算法;其次,众包标注过程中可能引入的噪声和不一致性,如何确保标注的准确性和一致性是一个重要问题。此外,开放域问答系统的研究本身也面临诸多挑战,如如何处理长尾问题、如何应对多义词和歧义问题,以及如何在有限的资源下实现高效的问答匹配。这些挑战不仅影响了数据集的质量,也对后续的模型训练和评估提出了更高的要求。
常用场景
经典使用场景
WikiQA数据集在开放域问答任务中展现了其经典应用场景。该数据集通过提供问题与相关答案的配对,为研究者构建和评估问答系统提供了丰富的资源。其核心应用在于训练和测试模型在开放域环境下对自然语言问题的理解和回答能力,尤其是在信息检索和文本匹配任务中表现突出。
解决学术问题
WikiQA数据集有效解决了开放域问答领域的关键学术问题。通过提供大规模的问答对,该数据集帮助研究者评估和改进问答系统的准确性和鲁棒性。其标注的答案标签为模型训练提供了监督信号,推动了问答技术在自然语言处理领域的进步,尤其是在信息抽取和语义匹配方面的研究。
衍生相关工作
基于WikiQA数据集,研究者们开展了多项相关工作,推动了开放域问答技术的进一步发展。例如,基于该数据集的模型优化和扩展研究,催生了更高效的问答算法和系统架构。此外,WikiQA还激发了跨领域研究,如结合知识图谱和深度学习的问答系统,进一步提升了问答任务的性能和应用范围。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作