QAngaroo/wiki_hop
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/QAngaroo/wiki_hop
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- crowdsourced
language_creators:
- expert-generated
language:
- en
license:
- cc-by-sa-3.0
multilinguality:
- monolingual
size_categories:
- 10K<n<100K
source_datasets:
- original
task_categories:
- question-answering
task_ids:
- extractive-qa
paperswithcode_id: wikihop
pretty_name: WikiHop
tags:
- multi-hop
dataset_info:
- config_name: original
features:
- name: id
dtype: string
- name: query
dtype: string
- name: answer
dtype: string
- name: candidates
sequence: string
- name: supports
sequence: string
- name: annotations
sequence:
sequence: string
splits:
- name: train
num_bytes: 325952974
num_examples: 43738
- name: validation
num_bytes: 41246536
num_examples: 5129
download_size: 339843061
dataset_size: 367199510
- config_name: masked
features:
- name: id
dtype: string
- name: question
dtype: string
- name: answer
dtype: string
- name: candidates
sequence: string
- name: supports
sequence: string
- name: annotations
sequence:
sequence: string
splits:
- name: train
num_bytes: 348249138
num_examples: 43738
- name: validation
num_bytes: 44066862
num_examples: 5129
download_size: 339843061
dataset_size: 392316000
---
# Dataset Card for WikiHop
## Table of Contents
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards)
- [Languages](#languages)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-fields)
- [Data Splits](#data-splits)
- [Dataset Creation](#dataset-creation)
- [Curation Rationale](#curation-rationale)
- [Source Data](#source-data)
- [Annotations](#annotations)
- [Personal and Sensitive Information](#personal-and-sensitive-information)
- [Considerations for Using the Data](#considerations-for-using-the-data)
- [Social Impact of Dataset](#social-impact-of-dataset)
- [Discussion of Biases](#discussion-of-biases)
- [Other Known Limitations](#other-known-limitations)
- [Additional Information](#additional-information)
- [Dataset Curators](#dataset-curators)
- [Licensing Information](#licensing-information)
- [Citation Information](#citation-information)
- [Contributions](#contributions)
## Dataset Description
- **Homepage:** [QAngaroo](http://qangaroo.cs.ucl.ac.uk/)
- **Repository:** [If the dataset is hosted on github or has a github homepage, add URL here]()
- **Paper:** [Constructing Datasets for Multi-hop Reading Comprehension Across Documents](https://arxiv.org/abs/1710.06481)
- **Leaderboard:** [leaderboard](http://qangaroo.cs.ucl.ac.uk/leaderboard.html)
- **Point of Contact:** [Johannes Welbl](j.welbl@cs.ucl.ac.uk)
### Dataset Summary
[More Information Needed]
### Supported Tasks and Leaderboards
[More Information Needed]
### Languages
[More Information Needed]
## Dataset Structure
### Data Instances
[More Information Needed]
### Data Fields
[More Information Needed]
### Data Splits
[More Information Needed]
## Dataset Creation
### Curation Rationale
[More Information Needed]
### Source Data
[More Information Needed]
#### Initial Data Collection and Normalization
[More Information Needed]
#### Who are the source language producers?
[More Information Needed]
### Annotations
[More Information Needed]
#### Annotation process
[More Information Needed]
#### Who are the annotators?
[More Information Needed]
### Personal and Sensitive Information
[More Information Needed]
## Considerations for Using the Data
### Social Impact of Dataset
[More Information Needed]
### Discussion of Biases
[More Information Needed]
### Other Known Limitations
[More Information Needed]
## Additional Information
### Dataset Curators
[More Information Needed]
### Licensing Information
[More Information Needed]
### Citation Information
[More Information Needed]
### Contributions
Thanks to [@patil-suraj](https://github.com/patil-suraj) for adding this dataset.
annotations_creators:
- 众包(crowdsourced)
language_creators:
- 专家生成(expert-generated)
language:
- 英语
license:
- CC BY-SA 3.0
multilinguality:
- 单语言
size_categories:
- 10K<n<100K
source_datasets:
- 原创
task_categories:
- 问答(question-answering)
task_ids:
- 抽取式问答(extractive-qa)
paperswithcode_id: wikihop
pretty_name: WikiHop
tags:
- 多跳(multi-hop)
dataset_info:
- config_name: 原版(original)
features:
- name: id
dtype: 字符串(string)
- name: query
dtype: 字符串(string)
- name: answer
dtype: 字符串(string)
- name: candidates
dtype: 字符串序列
- name: supports
dtype: 字符串序列
- name: annotations
dtype: 二维字符串序列
splits:
- name: 训练集(train)
num_bytes: 325952974
num_examples: 43738
- name: 验证集(validation)
num_bytes: 41246536
num_examples: 5129
download_size: 339843061
dataset_size: 367199510
- config_name: 掩码版(masked)
features:
- name: id
dtype: 字符串(string)
- name: question
dtype: 字符串(string)
- name: answer
dtype: 字符串(string)
- name: candidates
dtype: 字符串序列
- name: supports
dtype: 字符串序列
- name: annotations
dtype: 二维字符串序列
splits:
- name: 训练集(train)
num_bytes: 348249138
num_examples: 43738
- name: 验证集(validation)
num_bytes: 44066862
num_examples: 5129
download_size: 339843061
dataset_size: 392316000
---
# WikiHop 数据集卡片
## 目录
- [数据集描述](#dataset-description)
- [数据集概述](#dataset-summary)
- [支持任务与排行榜](#supported-tasks-and-leaderboards)
- [语言](#languages)
- [数据集结构](#dataset-structure)
- [数据实例](#data-instances)
- [数据字段](#data-fields)
- [数据拆分](#data-splits)
- [数据集构建](#dataset-creation)
- [构建初衷](#curation-rationale)
- [源数据](#source-data)
- [标注信息](#annotations)
- [个人与敏感信息](#personal-and-sensitive-information)
- [数据使用注意事项](#considerations-for-using-the-data)
- [数据集的社会影响](#social-impact-of-dataset)
- [偏差讨论](#discussion-of-biases)
- [其他已知局限](#other-known-limitations)
- [附加信息](#additional-information)
- [数据集维护者](#dataset-curators)
- [许可信息](#licensing-information)
- [引用信息](#citation-information)
- [贡献](#contributions)
## 数据集描述
- **主页:** [QAngaroo](http://qangaroo.cs.ucl.ac.uk/)
- **代码仓库:** [若数据集托管于GitHub或拥有GitHub主页,请在此添加链接]()
- **论文:** [跨文档多跳阅读理解数据集构建](https://arxiv.org/abs/1710.06481)
- **排行榜:** [排行榜](http://qangaroo.cs.ucl.ac.uk/leaderboard.html)
- **联络人:** [约翰内斯·韦尔布(Johannes Welbl)](j.welbl@cs.ucl.ac.uk)
### 数据集概述
[需补充更多信息]
### 支持任务与排行榜
[需补充更多信息]
### 语言
[需补充更多信息]
## 数据集结构
### 数据实例
[需补充更多信息]
### 数据字段
[需补充更多信息]
### 数据拆分
[需补充更多信息]
## 数据集构建
### 构建初衷
[需补充更多信息]
### 源数据
[需补充更多信息]
#### 初始数据收集与标准化
[需补充更多信息]
#### 源语言生产者是谁?
[需补充更多信息]
### 标注信息
[需补充更多信息]
#### 标注流程
[需补充更多信息]
#### 标注者是谁?
[需补充更多信息]
### 个人与敏感信息
[需补充更多信息]
## 数据使用注意事项
### 数据集的社会影响
[需补充更多信息]
### 偏差讨论
[需补充更多信息]
### 其他已知局限
[需补充更多信息]
## 附加信息
### 数据集维护者
[需补充更多信息]
### 许可信息
[需补充更多信息]
### 引用信息
[需补充更多信息]
### 贡献
感谢 [@patil-suraj](https://github.com/patil-suraj) 贡献此数据集。
提供机构:
QAngaroo
原始信息汇总
数据集卡片 for WikiHop
数据集描述
- annotations_creators: crowdsourced
- language_creators: expert-generated
- language: en
- license: cc-by-sa-3.0
- multilinguality: monolingual
- size_categories: 10K<n<100K
- source_datasets: original
- task_categories: question-answering
- task_ids: extractive-qa
- paperswithcode_id: wikihop
- pretty_name: WikiHop
- tags: multi-hop
数据集结构
配置信息
原始配置
- features:
- id: string
- query: string
- answer: string
- candidates: sequence: string
- supports: sequence: string
- annotations: sequence: sequence: string
- splits:
- train:
- num_bytes: 325952974
- num_examples: 43738
- validation:
- num_bytes: 41246536
- num_examples: 5129
- train:
- download_size: 339843061
- dataset_size: 367199510
掩码配置
- features:
- id: string
- question: string
- answer: string
- candidates: sequence: string
- supports: sequence: string
- annotations: sequence: sequence: string
- splits:
- train:
- num_bytes: 348249138
- num_examples: 43738
- validation:
- num_bytes: 44066862
- num_examples: 5129
- train:
- download_size: 339843061
- dataset_size: 392316000
搜集汇总
数据集介绍

构建方式
QAngaroo/wiki_hop数据集的构建基于对维基百科文档的深入理解,旨在模拟多跳阅读理解任务。数据集的构建者通过精心设计的问题和答案,以及支持答案的证据,确保了数据的相关性和挑战性。数据集包含的问题均由专家生成,并经过众包注释,以保证质量和准确性。构建过程中,采用了原始数据集,并通过特定的配置名称进行区分,如original和masked,以适应不同的研究需求。每一数据实例均包含问题、答案、候选答案、支持证据以及注释等信息字段,形成了结构化且层次分明的数据集。
特点
该数据集的主要特点是专注于多跳阅读理解任务,即要求模型在多个文档中寻找并整合信息以回答问题。数据集是单语种的,采用英语,并且规模适中,介于10K到100K之间。数据集的设计充分考虑了多跳推理的复杂性,提供了丰富的支持证据和候选答案,以便训练模型进行深入的信息检索和理解。此外,数据集的构建遵循了Creative Commons BY-SA 3.0许可,保证了数据的开放性和共享性。
使用方法
使用QAngaroo/wiki_hop数据集时,研究者可以根据自己的需求选择不同的配置版本。数据集分为训练集和验证集,可以通过HuggingFace的库直接下载和使用。在应用数据集时,研究者需要关注数据实例中的各个字段,包括问题、答案、候选答案和支持证据等,以充分利用数据集进行模型训练和评估。此外,数据集的使用者还应该遵循相应的许可协议,确保数据使用的合法性和合规性。
背景与挑战
背景概述
WikiHop数据集,旨在推进多跳阅读理解的研究,由伦敦大学学院(UCL)的研究团队创建于2017年。该数据集的核心研究问题是构建一个能够在多个文档间进行推理的问答系统,以解决现实世界中复杂且连贯的问题。其影响力在于为自然语言处理领域提供了一个新的研究方向,即多跳阅读理解,对于提升机器理解自然语言的能力具有重要意义。
当前挑战
该数据集在构建过程中遇到的挑战主要包括:1) 如何准确地从非结构化的文本中抽取和整合信息以形成连贯的回答;2) 如何有效地处理多跳推理中的长距离依赖问题。在领域问题上,WikiHop数据集面临的挑战是如何解决多文档环境下的提取式问答,这要求模型不仅能够理解单个文档的内容,还需在多个文档之间建立联系,进行跨文档推理。
常用场景
经典使用场景
在探索知识图谱中的多跳推理领域,WikiHop数据集以其独特的构造成为了研究的热点。该数据集设计之初,便致力于模拟真实场景中用户针对复杂问题所进行的逐步信息检索与推理过程。经典的使用场景在于,研究者通过训练模型来识别和利用文本中的支持语句,进而实现从给定的问题到答案的多跳推理。
解决学术问题
WikiHop数据集有效解决了多跳阅读理解中的学术研究问题,特别是在跨越多个文档进行推理时如何准确捕捉和利用支持证据。它的出现促进了多文档阅读理解技术的发展,为研究多跳逻辑推理提供了丰富的实验基础,加深了学术界对于复杂问答系统的理解和应用。
衍生相关工作
基于WikiHop数据集,学术界衍生出了许多相关的工作,包括对数据集的分析、性能改进、以及在不同领域的应用研究。这些工作不仅推动了多跳阅读理解技术的进步,还为构建更加智能和高效的知识图谱处理系统提供了新的视角和方法。
以上内容由遇见数据集搜集并总结生成



