wenhu/hybrid_qa

Name: wenhu/hybrid_qa
Creator: wenhu
Published: 2023-12-18 10:04:15
License: 暂无描述

Hugging Face2023-12-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/wenhu/hybrid_qa

下载链接

链接失效反馈

官方服务：

资源简介：

HybridQA是一个大规模的问答数据集，要求对异构信息进行推理。每个问题都与一个维基百科表格和多个自由形式的语料库相关联，这些语料库与表格中的实体链接。问题设计为需要结合表格信息和文本信息来回答，缺少任何一种形式都会使问题无法回答。数据集包含训练集、验证集和测试集，分别有62682、3466和3463个实例。数据集的语言为英语，采用CC-BY-4.0许可证。

HybridQA is a large-scale question answering dataset that necessitates reasoning over heterogeneous information. Each question is associated with a Wikipedia table and multiple free-form corpora linked to the entities within the table. The questions are designed to require combining both tabular and textual information to answer, and they will be unanswerable without either form of information. The dataset includes training, validation, and test splits with 62682, 3466, and 3463 instances respectively. The dataset is in English and licensed under the CC-BY-4.0 license.

提供机构：

wenhu

原始信息汇总

数据集概述

数据集描述

数据集摘要

HybridQA 是一个大规模的问答数据集，要求对异构信息进行推理。每个问题与一个维基百科表格和多个与表格实体相关的自由文本语料库对齐。这些问题旨在聚合表格信息和文本信息，缺少任何一种信息都会使问题无法回答。

支持的任务和排行榜

[更多信息需补充]

语言

数据集使用英语。

数据集结构

数据实例

一个典型的数据实例包括以下字段：

question_id (字符串)
question (字符串)
table_id (字符串)
answer_text (字符串)
question_postag (字符串)
table (字典):
- url (字符串)
- title (字符串)
- header (字符串列表)
- data (字典列表):
  - value (字符串)
  - urls (字典列表):
    - url (字符串)
    - summary (字符串)
section_title (字符串)
section_text (字符串)
uid (字符串)
intro (字符串)

数据分割

数据集分为训练集、验证集和测试集：

训练集：62682 个实例
验证集：3466 个实例
测试集：3463 个实例

数据集创建

策划理由

[更多信息需补充]

源数据

[更多信息需补充]

注释

[更多信息需补充]

使用数据的注意事项

数据集的社会影响

[更多信息需补充]

偏见讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

[更多信息需补充]

许可信息

数据集采用 Creative Commons Attribution 4.0 International License 许可。

引用信息

@article{chen2020hybridqa, title={HybridQA: A Dataset of Multi-Hop Question Answering over Tabular and Textual Data}, author={Chen, Wenhu and Zha, Hanwen and Chen, Zhiyu and Xiong, Wenhan and Wang, Hong and Wang, William}, journal={Findings of EMNLP 2020}, year={2020} }

贡献

感谢 @patil-suraj 添加此数据集。

搜集汇总

数据集介绍

构建方式

HybridQA数据集的构建，旨在融合表格数据与文本数据，以适应多跳问答的需求。通过搜集和整理Wikipedia上的表格及其相关文本信息，构建了一个包含问题、表格和答案的数据集。每个问题都与一个Wikipedia表格和多个与表格实体相关的自由文本关联，问题的设计需要综合表格和文本信息才能得出答案，确保了数据集的多样性和复杂性。

特点

HybridQA数据集的特点在于其多模态信息融合，涵盖了表格和文本两种数据类型，提供了丰富的多跳推理场景。数据集包含的问题需要结合表格和文本信息才能回答，这不仅增加了问题的难度，也使得该数据集在自然语言处理领域具有独特性。此外，数据集遵循Creative Commons Attribution 4.0国际许可，保证了数据的开放性和可用性。

使用方法

使用HybridQA数据集时，用户可以从HuggingFace的模型仓库直接下载训练、验证和测试三个数据集分割。数据以JSON格式存储，包含问题ID、问题文本、表格ID、答案文本、问题词性标注、表格信息（包括URL、标题、表头、数据及其链接和摘要）、章节标题、章节文本、唯一标识符和简介等字段。用户可以利用这些字段进行模型训练、评估和测试，以开展多跳问答等相关任务的研究。

背景与挑战

背景概述

HybridQA数据集，创建于2020年，由Wenhu Chen等研究人员提出，旨在解决多跳问题回答中融合表格数据与文本数据的挑战。该数据集收集了与Wikipedia表格相关联的多个自由文本语料，并针对表格信息与文本信息的综合运用设计问题。HybridQA数据集的构建，为研究多源异构信息处理提供了重要的资源，对自然语言处理领域，尤其是在问题回答和知识图谱应用方面，产生了显著影响。

当前挑战

该数据集构建过程中遇到的挑战主要包括：确保问题与表格及文本的准确对齐，处理异构数据带来的复杂推理问题，以及数据标注的一致性和准确性。在研究领域问题方面，HybridQA数据集面临的挑战是如何高效地融合表格和文本信息，实现更准确和全面的问题回答，同时确保模型具有良好的可解释性。

常用场景

经典使用场景

在文本与表格信息融合的问答领域，HybridQA数据集提供了一个典范的应用场景。该数据集结合了表格数据和文本数据，针对多跳推理问题设计，使得研究者能够在一个统一的框架下，对问答系统进行训练与评估，从而处理更为复杂的查询任务。

实际应用

在实际应用中，HybridQA数据集可被用于构建更为智能的搜索引擎、知识图谱问答系统以及在线教育平台中的自动问答助手等，为用户提供更加丰富和准确的信息检索服务。

衍生相关工作

基于HybridQA数据集，研究者们已经衍生出了一系列相关工作，包括对数据集的分析、改进的问答模型以及在不同领域的应用探索，这些都进一步推动了问答系统研究的深入发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集