MULTITAT
收藏arXiv2025-02-24 更新2025-02-26 收录
下载链接:
https://github.com/zhxlia/MULTITAT
下载链接
链接失效反馈官方服务:
资源简介:
MULTITAT是一个多语言表格和文本问答数据集,由哈尔滨工业大学提出。该数据集从现有的三个主流英文TATQA数据集中抽取数据,并翻译成10种不同的语言。数据集包含了233个混合上下文,涵盖了Wikipedia、金融和科学三个领域。MULTITAT旨在评估模型在多语言环境下的TATQA性能,并为解决多语言TATQA问题提供了基准。
MULTITAT is a multilingual table and text-based question answering dataset proposed by Harbin Institute of Technology. The dataset extracts data from three mainstream English TATQA datasets and translates it into ten different languages. It includes 233 mixed contexts across Wikipedia, finance, and scientific domains. MULTITAT aims to evaluate the performance of models in multilingual TATQA environments and provides a benchmark for addressing multilingual TATQA challenges.
提供机构:
哈尔滨工业大学
创建时间:
2025-02-24
原始信息汇总
MULTITAT 数据集概述
数据集简介
- 数据集名称:MULTITAT
- 数据集用途:用于多语言表格和文本问答的基准测试
数据集内容
- 数据类型:并行数据
- 数据规模:包含233个混合上下文的250个问题
- 语言覆盖:11种语言,包括英语,孟加拉语(bn),中文(zh),法语(fr),德语(de),日语(ja),俄语(ru),西班牙语(es),斯瓦希里语(sw),泰卢固语(te),泰语(th)
- 数据来源:从HybridQA,TAT-QA,和SciTAT中抽样英语数据,并进行翻译
数据结构
每个实例包含以下键:
python
{
"source": {
"dataset": 对应英语实例的数据集来源,
"qid": 对应英语实例的唯一id,
"answer_from": 答案来源,包括表格、文本和混合,
"answer_type": 答案类型,包括算术、跨度(span)和计数(count)
},
"text": {
"paragraph": 段落的唯一id
},
"table": {
"content": List[List[str]],表格的内容
},
"question": 实例的问题,
"explanation": 实例的推理理由,
"answer": 问题的答案
}
基线模型
- 运行脚本:
run_baseline.slurm用于运行基线模型 - 自有基线:运行脚本
run_Ours.slurm用于执行提出的基础模型
评估
- 运行脚本:
evaluate.slurm用于评估预测结果
数据下载
- 下载地址:MULTITAT
搜集汇总
数据集介绍

构建方式
MULTITAT数据集的构建过程包括数据准备、理由标注、实例翻译和质量控制。数据准备阶段从三个主流的TATQA数据集中采样数据,并选择11种不同的语言进行翻译。理由标注阶段利用大型语言模型和人工精炼相结合的方式,生成和修正问题回答的理由。实例翻译阶段结合LLM和人工标注,将英文实例翻译成10种语言。质量控制阶段确保数据质量,通过培训和反馈来提高标注员的专业水平。
特点
MULTITAT数据集的特点是包含了11种不同的语言,覆盖了8个语言家族,数据分布均匀,涵盖了维基百科、金融和科学三个领域。数据集包含250个问题,每个问题都包含对应的表格、文本、理由和答案,并标注了11种不同的语言。此外,数据集还提供了理由标注和实例翻译的详细过程。
使用方法
使用MULTITAT数据集时,可以参考数据集中的标注规范和翻译过程。研究人员可以基于数据集进行多语言TATQA能力的评估和分析,以及提出和测试新的TATQA模型。此外,数据集还提供了OURS基准模型,可以用于评估模型在非英语语言上的性能,并与其他基线模型进行比较。
背景与挑战
背景概述
随着大数据时代的到来,表格与文本混合问答(TATQA)任务在数据密集型领域,如金融和科学中,扮演着越来越重要的角色。为了提高模型在TATQA任务中的能力,研究人员提出了多种数据集,如HybridQA、TAT-QA和SciTAT,这些数据集主要关注英文环境。然而,现有的TATQA数据集存在一些局限性,如忽视多语言环境下的TATQA挑战,无法评估模型在多语言环境下的性能。为了解决这些问题,哈尔滨工业大学的研究人员提出了首个多语言TATQA数据集MULTITAT,该数据集从三个主流的TATQA数据集中采样数据,并将其翻译成10种不同的语言。MULTITAT的创建旨在解决现有数据集在多语言环境下的局限性,并为相关领域的研究提供新的视角。
当前挑战
尽管MULTITAT为多语言TATQA研究提供了新的数据集,但仍然面临着一些挑战。首先,多语言环境下TATQA任务的复杂性对模型提出了更高的要求,需要模型能够有效地链接表格和文本中的相关信息。其次,构建多语言数据集的翻译质量对模型的性能有着重要的影响,需要通过机器翻译和人工校对来确保翻译的准确性。此外,模型在非英语环境下的性能普遍低于英语环境,这表明了模型在跨语言推理方面的局限性。为了解决这些问题,研究人员提出了OUR基线模型,该模型通过将英语TATQA能力与非英语语言进行对齐,来提高模型在多语言环境下的性能。实验结果表明,OUR模型在MULTITAT上的性能平均提高了3.3%,证明了其在多语言环境下的有效性。然而,这些改进仍然无法完全消除不同语言之间的性能差距,表明了多语言TATQA任务的挑战性。
常用场景
经典使用场景
MULTITAT 数据集旨在解决多语言表格和文本问答(TATQA)任务中的挑战。该数据集通过将主流的 TATQA 数据集样本翻译成 10 种不同的语言,为评估模型在多语言环境下的性能提供了一个基准。经典的使用场景包括金融、科学和维基百科等领域的表格和文本数据问答任务,以及跨语言推理和程序生成等。
解决学术问题
MULTITAT 数据集解决了现有 TATQA 数据集仅限于英语的问题,这导致无法评估模型在多语言环境下的性能,也无法反映现实世界中非英语语言环境中表格和文本的频繁出现。通过提供多语言的数据集,MULTITAT 有助于评估模型在处理不同语言时链接相关信息的能力,并揭示了跨语言推理的挑战。此外,该数据集还揭示了模型在不同语言和资源水平上的性能差异。
衍生相关工作
MULTITAT 数据集的提出引发了相关领域的研究,例如跨语言推理和程序生成等。例如,OURS 基线模型被提出,以解决模型在处理非英语数据时性能下降的问题。此外,该数据集还揭示了模型在不同语言和资源水平上的性能差异,这为未来的研究提供了重要的启示。
以上内容由遇见数据集搜集并总结生成



