five

stanfordnlp/concurrentqa-retrieval

收藏
Hugging Face2024-07-18 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/stanfordnlp/concurrentqa-retrieval
下载链接
链接失效反馈
官方服务:
资源简介:
ConcurrentQA是一个文本多跳问答基准,要求在多数据分布(如维基百科和电子邮件数据)上进行并发检索。该数据集由斯坦福大学和FAIR的研究人员构建,遵循HotpotQA的数据收集过程和模式。该基准可用于研究检索中的泛化以及在多个隐私范围内(如公共维基百科文档和私人电子邮件)进行推理时的隐私问题。

ConcurrentQA是一个文本多跳问答基准,要求在多数据分布(如维基百科和电子邮件数据)上进行并发检索。该数据集由斯坦福大学和FAIR的研究人员构建,遵循HotpotQA的数据收集过程和模式。该基准可用于研究检索中的泛化以及在多个隐私范围内(如公共维基百科文档和私人电子邮件)进行推理时的隐私问题。
提供机构:
stanfordnlp
原始信息汇总

数据集概述

基本信息

  • 许可证: MIT
  • 任务类别: 问答
  • 语言: 英语
  • 数据规模: 10K<n<100K

数据集描述

  • 名称: ConcurrentQA
  • 类型: 文本多跳问答基准
  • 目的: 需要同时从多个数据分布(如维基百科和电子邮件数据)中进行检索
  • 构建者: 斯坦福大学和FAIR的研究人员
  • 参考: 遵循HotpotQA的数据收集过程和模式
  • 应用: 研究检索中的泛化能力以及跨多个隐私范围(如公共维基百科文档和私人电子邮件)的隐私推理

相关资源

  • 文档语料库:
    • enron_only_corpus.json
    • combined_corpus.json
    • wiki_only_corpus.json
    • title2sent_map.json

引用信息

  • 论文标题: Reasoning over Public and Private Data in Retrieval-Based Systems
  • 作者: Simran Arora, Patrick Lewis, Angela Fan, Jacob Kahn, Christopher Ré
  • 期刊: Transactions of the Association for Computational Linguistics
  • 年份: 2023
  • 链接: 论文链接
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作