microsoft/wiki_qa|问答系统数据集|自然语言处理数据集

hugging_face2024-01-04 更新2024-06-15 收录

问答系统

自然语言处理

下载链接：

https://hf-mirror.com/datasets/microsoft/wiki_qa

下载链接

链接失效反馈

资源简介：

WikiQA是一个公开可用的问题回答语料库，由微软收集和标注，用于开放领域问题回答的研究。该语料库包含问题和句子对，旨在支持学术研究和教学。数据集包含问题ID、问题、文档标题、答案和标签等特征，分为训练、验证和测试集。数据集遵循微软研究数据许可协议，适用于研究和技术开发目的。

提供机构：

microsoft

原始信息汇总

数据集概述

基本信息

数据集名称: WikiQA
语言: 英语
许可证: 其他（Microsoft Research Data License Agreement）
多语言性: 单语种
数据集大小: 10K<n<100K
源数据: 原始数据
任务类别: 问答
任务ID: 开放领域问答
Papers with Code ID: wikiqa

数据集结构

特征

question_id: 字符串类型
question: 字符串类型
document_title: 字符串类型
answer: 字符串类型
label: 分类标签，可能值包括 0 和 1

数据分割

训练集: 20360 条数据
验证集: 2733 条数据
测试集: 6165 条数据

数据实例

json { "answer": "Glacier caves are often called ice caves , but this term is properly used to describe bedrock caves that contain year-round ice.", "document_title": "Glacier cave", "label": 0, "question": "how are glacier caves formed?", "question_id": "Q1" }

下载和大小

下载大小: 2861208 字节
数据集大小: 6376888 字节

配置

配置名称: default
数据文件:
- 测试集: data/test-*
- 验证集: data/validation-*
- 训练集: data/train-*

引用信息

bibtex @inproceedings{yang-etal-2015-wikiqa, title = "{W}iki{QA}: A Challenge Dataset for Open-Domain Question Answering", author = "Yang, Yi and Yih, Wen-tau and Meek, Christopher", booktitle = "Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing", month = sep, year = "2015", address = "Lisbon, Portugal", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/D15-1237", doi = "10.18653/v1/D15-1237", pages = "2013--2018", }

AI搜集汇总

数据集介绍

构建方式

WikiQA数据集的构建基于公开的问答对，通过众包方式进行标注。该数据集从原始数据中提取问题和答案对，并进行人工标注，以确保数据的质量和准确性。标注过程涉及对每个问题和答案对的关联性进行分类，标签为‘0’表示不相关，‘1’表示相关。这种构建方式确保了数据集在开放域问答任务中的实用性和可靠性。

特点

WikiQA数据集的主要特点在于其专注于开放域问答任务，涵盖了广泛的主题和问题类型。数据集包含超过20,000个训练样本，2,733个验证样本和6,165个测试样本，提供了丰富的资源以支持模型训练和评估。此外，数据集的标注质量高，标签明确，便于模型学习和验证。

使用方法

使用WikiQA数据集时，用户可以利用其提供的问答对进行模型训练和评估，特别是在开放域问答任务中。数据集的结构清晰，包含问题ID、问题文本、文档标题、答案文本和标签等字段，便于数据处理和模型输入。用户可以通过HuggingFace的datasets库轻松加载和使用该数据集，进行各种自然语言处理任务的研究和开发。

背景与挑战

背景概述

WikiQA数据集由微软研究院于2015年发布，旨在推动开放域问答系统的研究。该数据集包含了从维基百科中提取的问题与答案对，经过众包方式进行标注，主要用于研究开放域问答任务。WikiQA的核心研究问题是如何在开放域环境中高效地匹配问题与答案，这一问题在自然语言处理领域具有重要意义。通过提供高质量的问答对，WikiQA为研究人员提供了一个标准化的基准，促进了问答系统的发展，尤其是在信息检索和自然语言理解方面。

当前挑战

WikiQA数据集在构建过程中面临的主要挑战包括：首先，如何从海量的维基百科内容中筛选出与问题相关的高质量答案，这一过程需要复杂的文本匹配和筛选算法；其次，众包标注过程中可能引入的噪声和不一致性，如何确保标注的准确性和一致性是一个重要问题。此外，开放域问答系统的研究本身也面临诸多挑战，如如何处理长尾问题、如何应对多义词和歧义问题，以及如何在有限的资源下实现高效的问答匹配。这些挑战不仅影响了数据集的质量，也对后续的模型训练和评估提出了更高的要求。

常用场景

经典使用场景

WikiQA数据集在开放域问答任务中展现了其经典应用场景。该数据集通过提供问题与相关答案的配对，为研究者构建和评估问答系统提供了丰富的资源。其核心应用在于训练和测试模型在开放域环境下对自然语言问题的理解和回答能力，尤其是在信息检索和文本匹配任务中表现突出。

解决学术问题

WikiQA数据集有效解决了开放域问答领域的关键学术问题。通过提供大规模的问答对，该数据集帮助研究者评估和改进问答系统的准确性和鲁棒性。其标注的答案标签为模型训练提供了监督信号，推动了问答技术在自然语言处理领域的进步，尤其是在信息抽取和语义匹配方面的研究。

衍生相关工作

基于WikiQA数据集，研究者们开展了多项相关工作，推动了开放域问答技术的进一步发展。例如，基于该数据集的模型优化和扩展研究，催生了更高效的问答算法和系统架构。此外，WikiQA还激发了跨领域研究，如结合知识图谱和深度学习的问答系统，进一步提升了问答任务的性能和应用范围。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国劳动力动态调查

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是“985”三期“中山大学社会科学特色数据库建设”专项内容，CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库收录

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算，为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果，以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性，还涵盖了电子结构和热力学性质等详尽信息，为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

DAT

DAT是一个统一的跨场景跨领域基准，用于开放世界无人机主动跟踪。它提供了24个视觉复杂的场景，以评估算法的跨场景和跨领域泛化能力，并具有高保真度的现实机器人动力学建模。

github 收录

NuminaMath-CoT

数据集包含约86万道数学题目，每道题目的解答都采用思维链（Chain of Thought, CoT）格式。数据来源包括中国高中数学练习题以及美国和国际数学奥林匹克竞赛题目。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF中进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式，以及最终答案格式化。

huggingface 收录