CATS
收藏arXiv2023-06-20 更新2024-06-21 收录
下载链接:
https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/cats
下载链接
链接失效反馈官方服务:
资源简介:
CATS是一个大规模、高质量的中文答案到序列数据集,由中国科学院信息工程研究所和阿里巴巴达摩院共同创建。该数据集旨在为实际的TableQA系统生成文本描述,包含43,369个答案到序列的例子,远超现有数据集。CATS通过手动标注所有收集的SQL-表对来确保数据质量,并采用统一图转换方法来弥合输入SQL和表之间的结构差距,将任务转换为图到文本问题。此外,CATS还引入了节点段嵌入以更好地保留原始结构信息。该数据集的应用领域主要集中在提高TableQA系统的用户友好性和交互性,解决现有数据集在语言多样性和实际应用场景方面的不足。
CATS is a large-scale, high-quality Chinese answer-to-sequence dataset co-developed by the Institute of Information Engineering, Chinese Academy of Sciences and Alibaba DAMO Academy. This dataset aims to generate textual descriptions for real-world TableQA systems, containing 43,369 answer-to-sequence examples, which is significantly larger than existing datasets. CATS ensures data quality by manually annotating all collected SQL-table pairs, and adopts a unified graph transformation method to bridge the structural gap between input SQL and tables, thus converting the task into a graph-to-text problem. Additionally, CATS introduces node segment embeddings to better preserve the original structural information. The application scenarios of this dataset mainly focus on improving the user-friendliness and interactivity of TableQA systems, addressing the shortcomings of existing datasets in terms of linguistic diversity and real-world application scenarios.
提供机构:
中国科学院信息工程研究所
创建时间:
2023-06-20
搜集汇总
数据集介绍

构建方式
针对当前数据到文本生成数据集中存在的大规模数据集包含噪声或缺乏实际应用场景、接近实际应用的语料库规模相对较小以及现有数据集主要针对英语等问题,本研究提出了一种实用的大型高质量中文答案到序列数据集CATS。该数据集旨在为TableQA系统中的答案生成文本描述。为了弥合输入SQL和表之间的结构差距并建立更好的语义对齐,本文提出了一种统一图转换方法,为两种混合知识资源建立一个联合编码空间,并将此任务转换为图到文本问题。
特点
CATS数据集包含43,369个答案到序列示例,比CoSQL数据集大一个数量级。数据集由两部分组成:CATS-D和CATS-S。CATS-D从DuSQL数据集中收集SQL-table对,而CATS-S则采用自动数据构建管道收集大量SQL-table对。数据集在输入表的行和列数、SQL难度和目标长度方面具有比CoSQL更广泛的分布,更符合实际的TableQA应用。
使用方法
CATS数据集可用于训练和评估数据到文本生成模型,特别是针对答案到序列任务。用户可以使用T5、T5-GRAPH、POINTER-GEN等模型进行实验,并通过BLEU、ROUGE-L、COVERAGE等指标评估模型的性能。此外,用户还可以使用人类评估方法对模型的生成结果进行评估,例如FLUENCY、FAITHFULNESS、COVERAGE和REPETITION等指标。
背景与挑战
背景概述
数据集背景概述
当前挑战
数据集当前挑战
常用场景
经典使用场景
在数据到文本(D2T)生成领域,CATS数据集主要用于训练和评估能够根据SQL查询及其对应的表格结果生成自然语言描述的模型。该数据集包含大规模和高质量的中文数据,旨在解决现有D2T数据集中存在的噪声、缺乏实际应用场景、数据规模较小以及语言偏向英语等问题。CATS数据集的构建过程分为两个阶段:SQL-table对的收集和手动数据标注。为了平衡数据质量和规模,并使其更接近实际场景,数据集收集了来自DuSQL的大规模SQL-table对,并采用自动数据构建流程收集了大量高质量的SQL-table对。
解决学术问题
CATS数据集解决了现有D2T数据集中存在的几个问题:首先,大规模数据集要么包含噪声,要么缺乏实际应用场景;其次,接近实际应用的数据库规模相对较小;最后,当前数据集偏向于英语,而忽略了其他语言。CATS数据集的提出旨在缩小研究与应用之间的差距,并丰富D2T数据集的语言多样性。此外,为了更好地模拟实际场景,CATS数据集采用了SQL查询作为输入,这比自然语言问题更具有实用性,尤其是在多轮TableQA场景中。
衍生相关工作
CATS数据集的提出衍生了许多相关的经典工作。例如,CoSQL数据集首次提出了基于SQL查询的answer-to-sequence任务,并提出了一个简单的基于模板的生成模型。此外,一些研究也提出了基于图结构建模的方法,例如Graph Transformer和Graph Attention Network,以更好地处理D2T任务中的结构化数据。这些工作都为D2T领域的发展做出了重要的贡献,并为CATS数据集的进一步研究提供了重要的参考。
以上内容由遇见数据集搜集并总结生成



