ToTTo|自然语言处理数据集|文本生成数据集

github2024-05-20 更新2024-05-31 收录

自然语言处理

文本生成

下载链接：

https://github.com/google-research-datasets/ToTTo

下载链接

链接失效反馈

资源简介：

ToTTo是一个开放领域的英文表格到文本数据集，包含超过120,000个训练实例，旨在提出一个控制生成任务：给定一个维基百科表格和一组高亮显示的表格单元格，生成一个单句描述。希望该数据集能作为高精度条件文本生成研究的有用基准。

ToTTo 是一个开放领域的英文表格到文本数据集，包含超过 120,000 个训练实例，旨在提出一个控制生成任务：给定一个维基百科表格和一组高亮显示的表格单元格，生成一个单句描述。希望该数据集能作为高精度条件文本生成研究的有用基准。

创建时间：

2020-04-22

原始信息汇总

ToTTo 数据集概述

数据集描述

名称: ToTTo 数据集
类型: 开放域英语表到文本数据集
规模: 包含超过120,000个训练实例
任务: 控制生成任务，给定一个维基百科表格和一组高亮显示的表格单元，生成一个单句描述
数据来源: 从英语维基百科中提取的表格，匹配（有噪声的）描述，并通过迭代清理和修正描述以忠实反映高亮单元格的内容
数据格式: 包含三个.jsonl文件，每个文件的每一行是一个JSON字典，包含表格元数据、高亮单元格信息、示例ID和句子注释等

数据集结构

表格元数据: 包括table_page_title, table_section_title, table_section_text
高亮单元格: 以List[[row_index, column_index]]格式表示
示例ID: 每个示例的唯一ID
句子注释: 包含原始句子及一系列修订后的句子，最终生成final_sentence

官方任务

输入: 表格、高亮单元格和表格元数据
输出: 生成final_sentence

开发和测试集

参考数量: 开发集和测试集每个示例有两到三个参考
测试集注释: 私有，不包含在数据中
数据集分割: 开发和测试集分为两部分，一部分使用已见过的表头组合，另一部分使用未见过的组合，通过overlap_subset: bool标志区分

数据集下载

许可证: 遵循Creative Commons Share-Alike 3.0
下载命令:

wget https://storage.googleapis.com/totto-public/totto_data.zip unzip totto_data.zip
包含文件: totto_train_data.jsonl, totto_dev_data.jsonl, unlabeled_totto_test_data.jsonl

评估和提交

评估脚本: 提供评估脚本和探索性处理脚本，位于此仓库
提交方式: 通过此链接上传预测文件，并通过电子邮件通知
联系方式: 通过电子邮件totto@google.com联系

领导者板

评估指标: BLEU, PARENT, BLEURT
数据使用: 请求不将ToTTo开发集用于训练，仅用于验证/超参数调整
领导者板链接: 包含在README文件中，显示不同模型的性能和是否使用额外维基数据训练的信息

AI搜集汇总

数据集介绍

构建方式

ToTTo数据集的构建过程始于从英文维基百科中提取表格，并将其与描述性文本进行匹配。每个表格单元格在描述中被高亮显示，随后通过迭代的方式对描述进行清理和修正，以确保其准确反映高亮单元格的内容。这一过程旨在生成一个高质量的表格到文本生成任务数据集，为研究提供可靠的基准。

使用方法

使用ToTTo数据集时，用户可以通过下载包含训练、开发和未标注测试集的`.jsonl`文件进行模型训练和验证。每个样本包含表格信息、高亮单元格索引以及生成的描述句子，便于模型输入和输出对齐。用户还可以利用提供的评估脚本对模型生成的句子进行自动评估，包括BLEU、PARENT和BLEURT等指标，以衡量生成文本的质量和准确性。

背景与挑战

背景概述

ToTTo数据集是由Ankur P. Parikh等人于2020年创建的，旨在推动开放领域表格到文本生成任务的研究。该数据集包含超过120,000个训练样本，基于英文维基百科的表格，提出了一种受控生成任务：给定一个维基百科表格和一组高亮的表格单元格，生成一个简短的描述性句子。ToTTo的创建过程涉及将维基百科表格与描述性句子匹配，并通过迭代清理和校正，确保描述忠实反映高亮单元格的内容。该数据集的主要研究问题是如何在受控条件下生成高质量的文本描述，其对自然语言处理领域的文本生成研究具有重要影响。

当前挑战

ToTTo数据集面临的主要挑战包括：首先，如何在受控条件下生成准确且自然的文本描述，确保生成的句子与表格内容高度一致；其次，数据集构建过程中需要处理大量的噪声数据，并通过迭代校正确保描述的准确性。此外，如何评估生成文本的质量也是一个重要挑战，尤其是在多参考答案的情况下，评估模型的性能需要考虑多种指标，如BLEU、PARENT和BLEURT等。最后，数据集的泛化能力也是一个关键问题，特别是在处理未见过的表格结构和内容时，模型的表现需要进一步验证。

常用场景

经典使用场景

ToTTo数据集的经典使用场景在于其为开放域的表格到文本生成任务提供了一个高质量的基准。研究者们可以利用该数据集训练模型，使其能够根据给定的维基百科表格和被高亮的单元格，生成准确且连贯的单句描述。这一任务不仅考验模型的文本生成能力，还要求其能够准确理解表格结构与内容之间的关系，从而生成符合上下文的高质量文本。

解决学术问题

ToTTo数据集解决了自然语言生成领域中表格到文本生成的关键问题。通过提供大规模的表格与文本对齐数据，该数据集帮助研究者们探索如何从结构化数据中提取信息并生成自然语言描述。这不仅推动了条件文本生成技术的发展，还为评估模型在处理复杂结构化输入时的表现提供了标准化的基准，具有重要的学术意义。

实际应用

ToTTo数据集的实际应用场景广泛，尤其在需要从结构化数据生成自然语言描述的领域中表现突出。例如，在自动文档生成、数据摘要、知识图谱解释等任务中，该数据集训练的模型可以自动将表格数据转化为易于理解的文本，从而提升信息传递的效率。此外，在智能助手、搜索引擎优化等领域，该数据集的应用也有助于提升用户体验。

数据集最近研究

最新研究方向

近年来，ToTTo数据集在自然语言生成领域引起了广泛关注，尤其是在表格到文本的生成任务中。该数据集通过提供大规模的维基百科表格及其对应的描述，推动了高精度条件文本生成模型的研究。前沿研究方向主要集中在如何利用深度学习模型，如Transformer架构，结合多任务学习或预训练技术，提升生成文本的准确性和流畅性。此外，研究者们也在探索如何通过引入外部知识库或增强模型的推理能力，进一步提高生成文本的多样性和语义一致性。这些研究不仅为自然语言处理领域提供了新的基准，也为实际应用中的自动化文本生成提供了有力支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集，包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述，包括数据来源、图像数量、标注信息等。

github 收录

PDT Dataset

PDT数据集是由山东计算机科学中心（国家超级计算济南中心）和齐鲁工业大学（山东省科学院）联合开发的无人机目标检测数据集，专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本，共计5775张图像，涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注，旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术，旨在提高无人机在植物保护中的目标识别精度，解决传统检测模型在实际应用中的不足。

arXiv 收录

中国区域250米植被覆盖度数据集（2000-2024）

该数据集是中国区域2000至2024年月度植被覆盖度产品，空间分辨率250米，合成方式采用月最大值合成，每年12期，共299期。本产品采用基于归一化植被指数（NDVI）像元二分模型，根据土地利用类型确定纯植被像元值和纯裸土像元值，实现植被覆盖度计算。本产品去除湖泊、河流、冰川/永久积雪等区域。其中，NDVI数据来源于国家青藏高原科学数据中心中国区域250米归一化植被指数数据集（2000-2024）产品。通过时空变化趋势分析检验法分析，该数据集符合时间变化趋势和空间变化趋势。该数据集能够为全国区域生态质量评价、重要生态空间调查评估等工作提供数据参考。

国家青藏高原科学数据中心收录

Stanford Cars

Cars数据集包含196类汽车的16,185图像。数据被分成8,144训练图像和8,041测试图像，其中每个类被大致分成50-50。类别通常在品牌，型号，年份，例如2012特斯拉Model S或2012 BMW M3 coupe的级别。

OpenDataLab 收录