ToTTo

github2024-05-20 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/ToTTo

下载链接

链接失效反馈

官方服务：

资源简介：

ToTTo是一个开放领域的英文表格到文本数据集，包含超过120,000个训练实例，旨在提出一个控制生成任务：给定一个维基百科表格和一组高亮显示的表格单元格，生成一个单句描述。希望该数据集能作为高精度条件文本生成研究的有用基准。

ToTTo 是一个开放领域的英文表格到文本数据集，包含超过 120,000 个训练实例，旨在提出一个控制生成任务：给定一个维基百科表格和一组高亮显示的表格单元格，生成一个单句描述。希望该数据集能作为高精度条件文本生成研究的有用基准。

创建时间：

2020-04-22

原始信息汇总

ToTTo 数据集概述

数据集描述

名称: ToTTo 数据集
类型: 开放域英语表到文本数据集
规模: 包含超过120,000个训练实例
任务: 控制生成任务，给定一个维基百科表格和一组高亮显示的表格单元，生成一个单句描述
数据来源: 从英语维基百科中提取的表格，匹配（有噪声的）描述，并通过迭代清理和修正描述以忠实反映高亮单元格的内容
数据格式: 包含三个.jsonl文件，每个文件的每一行是一个JSON字典，包含表格元数据、高亮单元格信息、示例ID和句子注释等

数据集结构

表格元数据: 包括table_page_title, table_section_title, table_section_text
高亮单元格: 以List[[row_index, column_index]]格式表示
示例ID: 每个示例的唯一ID
句子注释: 包含原始句子及一系列修订后的句子，最终生成final_sentence

官方任务

输入: 表格、高亮单元格和表格元数据
输出: 生成final_sentence

开发和测试集

参考数量: 开发集和测试集每个示例有两到三个参考
测试集注释: 私有，不包含在数据中
数据集分割: 开发和测试集分为两部分，一部分使用已见过的表头组合，另一部分使用未见过的组合，通过overlap_subset: bool标志区分

数据集下载

许可证: 遵循Creative Commons Share-Alike 3.0
下载命令:

wget https://storage.googleapis.com/totto-public/totto_data.zip unzip totto_data.zip
包含文件: totto_train_data.jsonl, totto_dev_data.jsonl, unlabeled_totto_test_data.jsonl

评估和提交

评估脚本: 提供评估脚本和探索性处理脚本，位于此仓库
提交方式: 通过此链接上传预测文件，并通过电子邮件通知
联系方式: 通过电子邮件totto@google.com联系

领导者板

评估指标: BLEU, PARENT, BLEURT
数据使用: 请求不将ToTTo开发集用于训练，仅用于验证/超参数调整
领导者板链接: 包含在README文件中，显示不同模型的性能和是否使用额外维基数据训练的信息

搜集汇总

数据集介绍

构建方式

ToTTo数据集的构建过程始于从英文维基百科中提取表格，并将其与描述性文本进行匹配。每个表格单元格在描述中被高亮显示，随后通过迭代的方式对描述进行清理和修正，以确保其准确反映高亮单元格的内容。这一过程旨在生成一个高质量的表格到文本生成任务数据集，为研究提供可靠的基准。

使用方法

使用ToTTo数据集时，用户可以通过下载包含训练、开发和未标注测试集的`.jsonl`文件进行模型训练和验证。每个样本包含表格信息、高亮单元格索引以及生成的描述句子，便于模型输入和输出对齐。用户还可以利用提供的评估脚本对模型生成的句子进行自动评估，包括BLEU、PARENT和BLEURT等指标，以衡量生成文本的质量和准确性。

背景与挑战

背景概述

ToTTo数据集是由Ankur P. Parikh等人于2020年创建的，旨在推动开放领域表格到文本生成任务的研究。该数据集包含超过120,000个训练样本，基于英文维基百科的表格，提出了一种受控生成任务：给定一个维基百科表格和一组高亮的表格单元格，生成一个简短的描述性句子。ToTTo的创建过程涉及将维基百科表格与描述性句子匹配，并通过迭代清理和校正，确保描述忠实反映高亮单元格的内容。该数据集的主要研究问题是如何在受控条件下生成高质量的文本描述，其对自然语言处理领域的文本生成研究具有重要影响。

当前挑战

ToTTo数据集面临的主要挑战包括：首先，如何在受控条件下生成准确且自然的文本描述，确保生成的句子与表格内容高度一致；其次，数据集构建过程中需要处理大量的噪声数据，并通过迭代校正确保描述的准确性。此外，如何评估生成文本的质量也是一个重要挑战，尤其是在多参考答案的情况下，评估模型的性能需要考虑多种指标，如BLEU、PARENT和BLEURT等。最后，数据集的泛化能力也是一个关键问题，特别是在处理未见过的表格结构和内容时，模型的表现需要进一步验证。

常用场景

经典使用场景

ToTTo数据集的经典使用场景在于其为开放域的表格到文本生成任务提供了一个高质量的基准。研究者们可以利用该数据集训练模型，使其能够根据给定的维基百科表格和被高亮的单元格，生成准确且连贯的单句描述。这一任务不仅考验模型的文本生成能力，还要求其能够准确理解表格结构与内容之间的关系，从而生成符合上下文的高质量文本。

解决学术问题

ToTTo数据集解决了自然语言生成领域中表格到文本生成的关键问题。通过提供大规模的表格与文本对齐数据，该数据集帮助研究者们探索如何从结构化数据中提取信息并生成自然语言描述。这不仅推动了条件文本生成技术的发展，还为评估模型在处理复杂结构化输入时的表现提供了标准化的基准，具有重要的学术意义。

实际应用

ToTTo数据集的实际应用场景广泛，尤其在需要从结构化数据生成自然语言描述的领域中表现突出。例如，在自动文档生成、数据摘要、知识图谱解释等任务中，该数据集训练的模型可以自动将表格数据转化为易于理解的文本，从而提升信息传递的效率。此外，在智能助手、搜索引擎优化等领域，该数据集的应用也有助于提升用户体验。

数据集最近研究