simarora/ConcurrentQA

Name: simarora/ConcurrentQA
Creator: simarora
Published: 2024-01-12 09:04:14
License: 暂无描述

Hugging Face2024-01-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/simarora/ConcurrentQA

下载链接

链接失效反馈

官方服务：

资源简介：

ConcurrentQA是一个文本多跳问答基准，要求跨多个数据分布（如维基百科和电子邮件数据）进行并发检索。该数据集由斯坦福大学和FAIR的研究人员构建，遵循了HotpotQA的数据收集过程和模式。该基准可用于研究检索中的泛化能力以及跨多个隐私范围（如公共维基百科文档和私人电子邮件）进行推理时的隐私问题。

ConcurrentQA is a textual multi-hop question answering benchmark that necessitates concurrent retrieval across multiple data distributions, such as Wikipedia and email datasets. This dataset was constructed by researchers from Stanford University and FAIR, following the data collection workflow and schema of HotpotQA. This benchmark can be utilized to study the generalization ability in retrieval tasks as well as the privacy issues that emerge when conducting reasoning across multiple privacy scopes, including public Wikipedia documents and private email materials.

提供机构：

simarora

原始信息汇总

数据集概述

名称: ConcurrentQA

类型: 文本多跳问答基准

目的: 该数据集旨在要求在多个数据分布（如Wikipedia和电子邮件数据）上进行并发检索，用于研究检索中的泛化能力以及跨多个隐私范围（公共Wikipedia文档和私人电子邮件）进行推理时的隐私问题。

构建者: 由斯坦福大学和FAIR的研究人员构建

数据收集和架构: 遵循HotpotQA的数据收集过程和架构

任务:

主要任务: 问答（Question-Answering）
相关任务: 检索（Retrieval），相关数据集可在此处找到：ConcurrentQA-Retrieval

语言: 英语（en）

许可证: MIT

数据下载命令: bash cd .. mkdir corpora cd corpora

wget https://dl.fbaipublicfiles.com/concurrentqa/corpora/enron_only_corpus.json wget https://dl.fbaipublicfiles.com/concurrentqa/corpora/combined_corpus.json wget https://dl.fbaipublicfiles.com/concurrentqa/corpora/wiki_only_corpus.json wget https://dl.fbaipublicfiles.com/concurrentqa/corpora/title2sent_map.json

相关资源:

模型训练和结果分析代码可在ConcurrentQA GitHub仓库找到。

引用: bibtex @article{arora2023reasoning, title={Reasoning over Public and Private Data in Retrieval-Based Systems}, author={Simran Arora and Patrick Lewis and Angela Fan and Jacob Kahn and Christopher Ré}, year={2023}, journal={Transactions of the Association for Computational Linguistics}, }

搜集汇总

数据集介绍

背景与挑战

背景概述

ConcurrentQA是一个多跳问答基准测试数据集，要求对维基百科和电子邮件数据进行并发检索，用于研究检索泛化和跨隐私范围的推理。数据集包含18,439行，格式为json，语言为英语，适用于问答任务。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集