TANQ
收藏github2024-05-31 收录
下载链接:
https://github.com/google-deepmind/tanq
下载链接
链接失效反馈官方服务:
资源简介:
TANQ(Table Answered Questions)是伦敦国王学院和谷歌联合构建的一个开放域问答数据集,要求从多个来源构建表格形式的答案。该数据集包含1395个问题,涵盖了简单、交集和组合三种类型,其中大部分问题需要应用至少一种额外技能,如过滤、数学运算或单位转换以生成答案。数据集的构建遵循了五步自动化收集流程,首先扩展QAMPARI问题,通过查询Wikidata知识图谱来增加额外的关系,然后从Wikipedia收集支持证据,接着使用PaLM-2评估证据并生成答案表格。随后通过PaLM-2模型对问题进行重述,以提高自然性,最后为了生成更具挑战性的问题,对TANQ问题进行了技能增强,如过滤、转换和近似计算。TANQ数据集适用于开发和评估能够处理多步推理、数学运算和单位转换等复杂任务的大模型。
TANQ (Table Answered Questions) is an open-domain question-answering dataset jointly constructed by King's College London and Google, which requires the construction of tabular answers from multiple sources. The dataset comprises 1,395 questions, covering three types: simple, intersection, and combination, with the majority of questions necessitating the application of at least one additional skill, such as filtering, mathematical operations, or unit conversion, to generate answers. The construction of the dataset follows a five-step automated collection process: first, expanding QAMPARI questions by querying the Wikidata knowledge graph to add additional relations; then, collecting supporting evidence from Wikipedia; next, using PaLM-2 to evaluate the evidence and generate answer tables; subsequently, rephrasing the questions with the PaLM-2 model to enhance naturalness; and finally, skill-enhancing TANQ questions, such as filtering, conversion, and approximate calculation, to generate more challenging questions. The TANQ dataset is suitable for developing and evaluating large models capable of handling complex tasks such as multi-step reasoning, mathematical operations, and unit conversion.
提供机构:
伦敦国王学院、谷歌
原始信息汇总
数据集概述
数据集名称
TANQ: An Open Domain Dataset for Table-ANswered Questions
数据集描述
首个需要从多个信息源构建表格来回答问题的开放域问答数据集。
数据集结构
-
数据元素描述
init_qid: 问题标识符init_question: 原始问题ext_question: 添加属性后的新问题ext_question_cleaned: 去除属性括号的问题ext_question_rephrased: 语言模型重述的问题question_properties: 添加到问题中的属性列表answer_list: 答案列表init_answer_wikidata_id: 维基数据答案IDinit_answer_wikipedia_id: 维基百科答案IDinit_answer_composed: 组合答案extension_answer: 属性列表extension_property_id: 属性维基数据标识符extension_property_label: 属性名称extension_entity: 当前扩展答案的元数据字典extension_wikidata_id: 属性值的维基数据IDextension_wikipedia_id: 属性值的维基百科IDproof: 维基百科文档中属性的证据列表
init_answer_proof: 初始证据列表proof_text: 证据内容found_in_url: 证据所在URL链接
filter_pass: 答案是否通过问题过滤的标志instance_type: 答案类型
extended_types: 成功扩展的问题类型列表answer_table: 扩展问题的黄金答案表格
-
证据类型
- InfoboxProof
key: 属性名称value: 属性答案section: 证据所在部分名称parent_section: 父部分名称found_in_url: 证据所在URL链接index: 信息框在原始页面中的索引proof_type: 固定字符串: infoboxeval_result: 评估结果
- TableProof
rows: 行数据列表cells: 单元格数据列表cell_value: 单元格内容
caption: 表格标题section: 证据所在部分名称parent_section: 父部分名称found_in_url: 证据所在URL链接index: 表格在原始页面中的索引proof_type: 固定字符串: tableeval_result: 评估结果
- TextProof
text: 证据上下文section: 证据所在部分名称parent_section: 父部分名称found_in_url: 证据所在URL链接index: 部分内容在原始页面中的索引proof_type: 固定字符串: texteval_result: 评估结果
- InfoboxProof
数据集下载
- 测试集
- 下载链接: https://storage.mtls.cloud.google.com/tanq/data/v1/test.jsonl
- 开发集
- 下载链接: https://storage.mtls.cloud.google.com/tanq/data/v1/dev.jsonl
搜集汇总
数据集介绍

构建方式
TANQ数据集的构建,旨在针对开放域中需通过构建表格来回答的问题,从多个信息源整合数据。数据集的构建过程涉及从原始问题中提取属性,形成扩展问题,并通过从维基数据等来源中提取证据来构建答案表格,实现了问题、属性、证据与答案的有机整合。
特点
TANQ数据集的特点在于,其答案需要通过构建表格的形式来展现,这要求问题回答不仅包含简单的信息检索,还包括对信息源的多维度整合与呈现。数据集提供了丰富的证据类型,包括信息框、表格和文本证据,以及每个证据的验证结果,为研究开放域问答系统提供了重要资源。
使用方法
使用TANQ数据集时,用户可通过提供的测试集和开发集链接直接下载数据。数据集的评估可通过指定的脚本进行,其中包含了输入路径、预测键、输出路径以及示例输出路径等参数设置,以便于研究者对模型生成的表格进行评估与验证。
背景与挑战
背景概述
TANQ数据集,即表格回答问题开放域数据集,标志着首个要求构建表格以跨多个来源整合信息来回答问题的开放域问答数据集的诞生。该数据集由DeepMind Technologies Limited于2024年创建,主要研究人员包括Mubashara Akhtar、Chenxi Pang、Andreea Marzoca、Yasemin Altun和Julian Martin Eisenschlos等。该数据集的核心研究问题是如何通过构建表格来有效回答需要整合多源信息的问题,对开放域问答领域产生了显著影响,为相关研究提供了新的视角和工具。
当前挑战
在研究领域问题上,TANQ数据集面临的挑战包括如何精确地从多个信息源中抽取和整合数据,以及如何准确地将抽取的信息构建成表格形式。在构建过程中,数据集的挑战主要表现在如何确保所提供证据的准确性和可靠性,以及如何处理和评估大量异构数据的一致性和质量。此外,数据集还需解决如何在保留信息完整性的同时,优化数据表示形式以提高模型处理的效率和准确性。
常用场景
经典使用场景
TANQ数据集作为首个开放领域的表格回答问题数据集,其经典使用场景主要在于构建多源信息融合的表格,以支撑复杂问题的回答。该数据集特别适用于训练和评估自然语言处理模型在理解问题、检索信息、整合多源数据并生成结构化表格答案方面的能力。
解决学术问题
TANQ数据集解决了传统问答系统难以处理需要结构化数据回答的问题的学术难题。它为研究者提供了一个开放域的问题和答案框架,有助于推动多源信息融合、知识图谱构建以及复杂问答系统的研究,对于提升机器理解自然语言和生成结构化数据的能力具有重要的学术意义和影响。
衍生相关工作
基于TANQ数据集,研究者可以进一步开展关于表格生成、知识提取和复杂问答系统的相关工作。已经衍生的相关工作包括但不限于结构化数据理解、知识图谱问答以及多模态信息融合等领域的探索,这些研究将进一步推动自然语言处理技术在实践中的应用边界。
以上内容由遇见数据集搜集并总结生成



