OTT-QA
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/wenhuchen/ott-qa
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为OTT-QA,是一个大规模的数据集,专为需要跨越表格数据和非结构化文本的多跳推理的开放式问答任务而设计。该数据集包含了一个由500万个表格片段和段落组成的候选池。问题与答案对是基于HybridQA数据集创建的,但在开放环境下进行了重大改动。其规模超过500万段落后和500万个表格片段。该数据集的任务是开放式问答。
OTT-QA is a large-scale dataset specifically designed for open-domain question answering tasks that require multi-hop reasoning spanning both tabular data and unstructured text. It includes a candidate pool composed of 5 million table snippets and paragraphs. The question-answer pairs are developed based on the HybridQA dataset, but have undergone substantial modifications in the open-domain setting. The scale of the dataset exceeds 5 million paragraphs and 5 million table snippets, and its core task is open-domain question answering.
搜集汇总
数据集介绍

背景与挑战
背景概述
OTT-QA是一个开放领域的问题回答数据集,专注于表格和文本的联合检索与回答。该数据集基于HybridQA重新标注,包含40万+表格候选和500万+开放域段落候选,要求模型从中检索证据回答问题。数据集特点包括问题去上下文化、新增开发/测试集问题以及移除表格检索偏差等改进。
以上内容由遇见数据集搜集并总结生成



