DEXTER
收藏arXiv2024-06-25 更新2024-06-27 收录
下载链接:
https://github.com/VenkteshV/DEXTER
下载链接
链接失效反馈官方服务:
资源简介:
DEXTER是一个针对开放领域复杂问答任务的基准数据集,由代尔夫特理工大学创建。该数据集包含7个子数据集,覆盖多种复杂性问题,如组合性、比较性、歧义性及多模态推理等。数据集大小从数千到数百万不等,数据来源广泛,包括Wikipedia等。创建过程中,数据集通过将问题与相关证据结合,模拟真实世界的信息检索挑战。DEXTER的应用领域广泛,旨在通过评估和改进复杂问答系统的性能,解决实际应用中的信息检索和推理问题。
DEXTER is a benchmark dataset for open-domain complex question answering, developed by Delft University of Technology. It comprises 7 sub-datasets covering diverse types of complex questions, such as compositional, comparative, ambiguous, and multi-modal reasoning questions. The scale of these sub-datasets ranges from thousands to millions of samples, with data sourced from a wide range of resources including Wikipedia. During its construction, the dataset combines questions with relevant supporting evidence to simulate real-world information retrieval challenges. DEXTER has a wide range of application scenarios, and it aims to evaluate and improve the performance of complex question answering systems to solve information retrieval and reasoning problems in practical applications.
提供机构:
代尔夫特理工大学
创建时间:
2024-06-25
原始信息汇总
DEXTER (Benchmarking Complex QA)
数据集
| 数据集名称 | 数据集别名 | 主页链接 | 特点 | 问题数量 | 语料库大小 |
|---|---|---|---|---|---|
| MusiqueQA | musiqueqa (2-hop only) | Link | 连接多跳推理 | 16.8k | 570k |
| WikiMultiHopQA | wikimultihopqa | Link | 比较多跳推理 | 190k | 570k |
| StrategyQA | strategyqa | Link | 多跳推理,隐式推理 | 2.7k | 26.6M |
| AmbigQA | ambignq | Link | 模糊问题 | 12k | 24.3M |
| OTT-QA | ottqa | Link | 表格和文本多跳推理 | 2.1k | 6.5M |
| TAT-QA | tatqa | Link | 金融表格和文本多跳推理 | 2.9k | 7000 |
| FinQA | finqa | Link | 金融表格和文本多跳推理 | 8k | 24.8k |
检索器
| 名称 | 范式 | 更多信息链接 |
|---|---|---|
| BM25 | 词汇 | Link |
| SPLADE | 稀疏 | Link |
| DPR | 密集 | Link |
| ANCE | 密集 | Link |
| tas-b | 密集 | Link |
| MPNet | 密集 | Link |
| Contriever | 密集 | Link |
| ColBERTv2 | 后期交互 | Link |
LLM引擎
- OpenAI模型
- Mistral
- Llama
- FlanT5
项目结构
- data
- datastructures: 基本数据类,用于问题、答案等。
- dataloaders: 加载器,将原始json/zip文件数据转换为管道所需格式。
- retriever: 检索器,使用数据加载器执行检索以生成结果。
- dense: 密集检索器,如ColBERTv2, ANCE, Contriever, MpNet, DPR和Tas-B。
- lexical: 词汇检索器,如BM25。
- sparse: 稀疏检索器,如SPLADE。
- llms: LLM引擎编排器和使用LLama2, Mistral, OpenAI模型和Flan-T5进行推理的实现。
- config: 配置文件,包含常量和初始化。
- tests: 上述组件的测试用例。
- utils: 管道中需要的实用工具,如检索准确性计算和匹配。
运行评估
以下是一个示例脚本,演示如何从我们的基准中加载数据集(此处为ambignq),将其输入到我们的检索器(此处为ANCE)中,并根据数据集提供的相关性标签评估检索质量。
python from dexter.config.constants import Split from dexter.data.loaders.RetrieverDataset import RetrieverDataset from dexter.retriever.dense.ANCE import ANCE from dexter.utils.metrics.SimilarityMatch import CosineSimilarity from dexter.utils.metrics.retrieval.RetrievalMetrics import RetrievalMetrics
if name == "main": loader = RetrieverDataset("ambignq","ambignq-corpus", "config.ini", Split.DEV,tokenizer=None)
config_instance = DenseHyperParams(query_encoder_path="facebook/contriever",
document_encoder_path="facebook/contriever"
,batch_size=32,show_progress_bar=True)
queries, qrels, corpus = loader.qrels()
contrvr_search = Contriever(config_instance)
similarity_measure = CosineSimilarity()
response = contrvr_search.retrieve(corpus,queries,100,similarity_measure,chunk=True,chunksize=400000)
metrics = RetrievalMetrics(k_values=[1,10,100])
print(metrics.evaluate_retrieval(qrels=qrels,results=response))
搜集汇总
数据集介绍

构建方式
DEXTER数据集旨在解决开放领域复杂问答(QA)任务的挑战,包括证据检索和推理。该数据集由七个不同的子数据集组成,涵盖了问题的复杂性、证据来源和答案格式的多样性。为了构建这个数据集,研究人员从现有的数据集中选择了具有代表性的问题,并转换了它们的格式,使其适用于开放域检索。例如,对于一些数据集,如MusiqueQA和2WikiMultiHopQA,研究人员将所有问题的段落合并在一起,以创建一个包含430,225段落的真实开放域设置。对于其他数据集,如StrategyQA和AmbigQA,研究人员使用了Wikipedia的完整语料库,并根据注释者查找的相关文章创建了查询相关度判断(qrels)。这些qrels用于评估检索模型。在构建过程中,研究人员还考虑了数据集的多样性,包括不同类型的问题(如组合、比较、推理、歧义)、证据来源(如文本、表格)和答案格式(如数值、文本)。DEXTER数据集的构建不仅考虑了问题的复杂性,还考虑了证据检索和推理的多样性,使其成为一个全面的基准数据集。
特点
DEXTER数据集具有以下特点:首先,它涵盖了开放领域复杂问答任务的多样性,包括组合、比较、推理、歧义和数值推理等方面的问题。其次,DEXTER数据集采用了开放域检索设置,使检索模型面临更大的挑战,因为它们必须从包含干扰项的大规模语料库中检索相关信息。此外,DEXTER数据集还提供了多样化的证据来源,包括文本、表格和文本+表格等,使模型能够在不同类型的证据上进行推理。最后,DEXTER数据集还包含了丰富的评估指标,包括nDCG@k、Cover-EM、EM-tol等,用于评估检索和答案生成模型的性能。这些特点使得DEXTER数据集成为一个全面、多样化和具有挑战性的基准数据集,有助于推动复杂问答领域的研究进展。
使用方法
DEXTER数据集的使用方法如下:首先,用户需要从DEXTER的GitHub仓库中下载数据集和工具包。然后,用户可以使用工具包中的数据加载器加载不同的数据集,并选择合适的检索模型和答案生成模型进行实验。DEXTER工具包提供了多种检索模型,包括基于词袋模型的BM25、基于神经网络的SPLADE、基于双编码器的DPR和ANCE、以及基于晚交互的ColBERTv2等。用户可以根据自己的需求选择合适的模型进行实验。在检索模型评估方面,DEXTER工具包提供了nDCG@k作为主要指标,用于评估检索结果的排序质量。此外,DEXTER工具包还提供了多种答案生成模型,包括LLama2、Mistral和gpt-3.5-turbo等。用户可以根据自己的需求选择合适的模型进行实验。在答案生成模型评估方面,DEXTER工具包提供了Cover-EM、EM-tol等指标,用于评估答案生成模型的准确性和召回率。DEXTER工具包还支持可扩展性和自定义,用户可以根据自己的需求扩展数据集、检索模型和答案生成模型。DEXTER工具包的模块化设计使得用户可以轻松地添加新的组件,并进行灵活的实验设置。
背景与挑战
背景概述
DEXTER数据集是针对开放领域复杂问答任务的一个基准数据集,由Delft理工大学的研究团队提出。该数据集旨在解决开放领域复杂问答中的证据检索和推理挑战。复杂问答问题的复杂性可能源于问题本身的结构性、混合证据或问题的模糊性。DEXTER数据集包含七个不同的数据集,覆盖了不同的复杂性方面,包括结构化问答、表格问答、文本问答和混合证据问答等。该数据集为研究人员提供了一个用于评估和比较不同检索和生成模型性能的平台,并有助于推动开放领域复杂问答任务的研究进展。
当前挑战
DEXTER数据集面临的挑战主要包括:1)在开放领域复杂问答任务中,检索模型的性能有待提高,尤其是在处理模糊或结构性问题时;2)尽管大型语言模型被认为是编码了世界知识,但在没有提供相关上下文的情况下,它们在封闭书环境下处理复杂问答任务的性能明显不足;3)大型语言模型在推理混合证据源(如表格和文本)方面的能力有限,即使在提供金标准证据的情况下也无法充分建模问题的模糊性。为了解决这些挑战,DEXTER数据集提供了一个模块化的工具包,允许研究人员评估和比较不同检索和生成模型在开放领域复杂问答任务中的性能。DEXTER数据集的发布有望推动相关领域的研究进展,并为开放领域复杂问答任务的研究提供新的方向。
常用场景
经典使用场景
DEXTER 数据集被设计用于评估开放域复杂问答任务的检索和生成模型。该数据集涵盖了多种复杂度,包括问题的复杂性、证据来源的多样性和答案格式的多样性。DEXTER 的一个经典使用场景是评估不同类型的预训练检索模型,如基于词法、稀疏、密集和晚期交互的模型,在开放域环境下的表现。此外,DEXTER 还用于评估大型语言模型(LLMs)在封闭书环境下进行复杂问答任务的能力,以及通过检索增强生成模型在开放域环境下的表现。
实际应用
DEXTER 数据集在实际应用中具有广泛的应用前景。例如,DEXTER 可以用于评估和改进信息检索系统,以支持开放域复杂问答任务。此外,DEXTER 还可以用于评估和改进大型语言模型,以增强其在问答任务中的推理能力。DEXTER 的研究成果可以为开发更智能、更准确的信息检索和问答系统提供指导,并在多个领域,如金融、医疗保健等,得到实际应用。
衍生相关工作
DEXTER 数据集的提出促进了开放域复杂问答任务的研究,并衍生出许多相关工作。例如,一些研究使用 DEXTER 数据集评估和改进不同类型的检索模型,如基于词法、稀疏、密集和晚期交互的模型。此外,DEXTER 还被用于评估和改进大型语言模型,以增强其在问答任务中的推理能力。DEXTER 的研究成果为开放域复杂问答任务的研究提供了新的思路和方法,并为开发更智能、更准确的信息检索和问答系统提供了指导。
以上内容由遇见数据集搜集并总结生成



