five

ToTTo|自然语言处理数据集|文本生成数据集

收藏
github2024-05-20 更新2024-05-31 收录
自然语言处理
文本生成
下载链接:
https://github.com/google-research-datasets/ToTTo
下载链接
链接失效反馈
资源简介:
ToTTo是一个开放领域的英文表格到文本数据集,包含超过120,000个训练实例,旨在提出一个控制生成任务:给定一个维基百科表格和一组高亮显示的表格单元格,生成一个单句描述。希望该数据集能作为高精度条件文本生成研究的有用基准。

ToTTo 是一个开放领域的英文表格到文本数据集,包含超过 120,000 个训练实例,旨在提出一个控制生成任务:给定一个维基百科表格和一组高亮显示的表格单元格,生成一个单句描述。希望该数据集能作为高精度条件文本生成研究的有用基准。
创建时间:
2020-04-22
原始信息汇总

ToTTo 数据集概述

数据集描述

  • 名称: ToTTo 数据集
  • 类型: 开放域英语表到文本数据集
  • 规模: 包含超过120,000个训练实例
  • 任务: 控制生成任务,给定一个维基百科表格和一组高亮显示的表格单元,生成一个单句描述
  • 数据来源: 从英语维基百科中提取的表格,匹配(有噪声的)描述,并通过迭代清理和修正描述以忠实反映高亮单元格的内容
  • 数据格式: 包含三个.jsonl文件,每个文件的每一行是一个JSON字典,包含表格元数据、高亮单元格信息、示例ID和句子注释等

数据集结构

  • 表格元数据: 包括table_page_title, table_section_title, table_section_text
  • 高亮单元格: 以List[[row_index, column_index]]格式表示
  • 示例ID: 每个示例的唯一ID
  • 句子注释: 包含原始句子及一系列修订后的句子,最终生成final_sentence

官方任务

  • 输入: 表格、高亮单元格和表格元数据
  • 输出: 生成final_sentence

开发和测试集

  • 参考数量: 开发集和测试集每个示例有两到三个参考
  • 测试集注释: 私有,不包含在数据中
  • 数据集分割: 开发和测试集分为两部分,一部分使用已见过的表头组合,另一部分使用未见过的组合,通过overlap_subset: bool标志区分

数据集下载

  • 许可证: 遵循Creative Commons Share-Alike 3.0

  • 下载命令:

    wget https://storage.googleapis.com/totto-public/totto_data.zip unzip totto_data.zip

  • 包含文件: totto_train_data.jsonl, totto_dev_data.jsonl, unlabeled_totto_test_data.jsonl

评估和提交

  • 评估脚本: 提供评估脚本和探索性处理脚本,位于此仓库
  • 提交方式: 通过此链接上传预测文件,并通过电子邮件通知
  • 联系方式: 通过电子邮件totto@google.com联系

领导者板

  • 评估指标: BLEU, PARENT, BLEURT
  • 数据使用: 请求不将ToTTo开发集用于训练,仅用于验证/超参数调整
  • 领导者板链接: 包含在README文件中,显示不同模型的性能和是否使用额外维基数据训练的信息
AI搜集汇总
数据集介绍
main_image_url
构建方式
ToTTo数据集的构建过程始于从英文维基百科中提取表格,并将其与描述性文本进行匹配。每个表格单元格在描述中被高亮显示,随后通过迭代的方式对描述进行清理和修正,以确保其准确反映高亮单元格的内容。这一过程旨在生成一个高质量的表格到文本生成任务数据集,为研究提供可靠的基准。
使用方法
使用ToTTo数据集时,用户可以通过下载包含训练、开发和未标注测试集的`.jsonl`文件进行模型训练和验证。每个样本包含表格信息、高亮单元格索引以及生成的描述句子,便于模型输入和输出对齐。用户还可以利用提供的评估脚本对模型生成的句子进行自动评估,包括BLEU、PARENT和BLEURT等指标,以衡量生成文本的质量和准确性。
背景与挑战
背景概述
ToTTo数据集是由Ankur P. Parikh等人于2020年创建的,旨在推动开放领域表格到文本生成任务的研究。该数据集包含超过120,000个训练样本,基于英文维基百科的表格,提出了一种受控生成任务:给定一个维基百科表格和一组高亮的表格单元格,生成一个简短的描述性句子。ToTTo的创建过程涉及将维基百科表格与描述性句子匹配,并通过迭代清理和校正,确保描述忠实反映高亮单元格的内容。该数据集的主要研究问题是如何在受控条件下生成高质量的文本描述,其对自然语言处理领域的文本生成研究具有重要影响。
当前挑战
ToTTo数据集面临的主要挑战包括:首先,如何在受控条件下生成准确且自然的文本描述,确保生成的句子与表格内容高度一致;其次,数据集构建过程中需要处理大量的噪声数据,并通过迭代校正确保描述的准确性。此外,如何评估生成文本的质量也是一个重要挑战,尤其是在多参考答案的情况下,评估模型的性能需要考虑多种指标,如BLEU、PARENT和BLEURT等。最后,数据集的泛化能力也是一个关键问题,特别是在处理未见过的表格结构和内容时,模型的表现需要进一步验证。
常用场景
经典使用场景
ToTTo数据集的经典使用场景在于其为开放域的表格到文本生成任务提供了一个高质量的基准。研究者们可以利用该数据集训练模型,使其能够根据给定的维基百科表格和被高亮的单元格,生成准确且连贯的单句描述。这一任务不仅考验模型的文本生成能力,还要求其能够准确理解表格结构与内容之间的关系,从而生成符合上下文的高质量文本。
解决学术问题
ToTTo数据集解决了自然语言生成领域中表格到文本生成的关键问题。通过提供大规模的表格与文本对齐数据,该数据集帮助研究者们探索如何从结构化数据中提取信息并生成自然语言描述。这不仅推动了条件文本生成技术的发展,还为评估模型在处理复杂结构化输入时的表现提供了标准化的基准,具有重要的学术意义。
实际应用
ToTTo数据集的实际应用场景广泛,尤其在需要从结构化数据生成自然语言描述的领域中表现突出。例如,在自动文档生成、数据摘要、知识图谱解释等任务中,该数据集训练的模型可以自动将表格数据转化为易于理解的文本,从而提升信息传递的效率。此外,在智能助手、搜索引擎优化等领域,该数据集的应用也有助于提升用户体验。
数据集最近研究
最新研究方向
近年来,ToTTo数据集在自然语言生成领域引起了广泛关注,尤其是在表格到文本的生成任务中。该数据集通过提供大规模的维基百科表格及其对应的描述,推动了高精度条件文本生成模型的研究。前沿研究方向主要集中在如何利用深度学习模型,如Transformer架构,结合多任务学习或预训练技术,提升生成文本的准确性和流畅性。此外,研究者们也在探索如何通过引入外部知识库或增强模型的推理能力,进一步提高生成文本的多样性和语义一致性。这些研究不仅为自然语言处理领域提供了新的基准,也为实际应用中的自动化文本生成提供了有力支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

FAOSTAT

FAOSTAT provides time-series data about agriculture, nutrition, fisheries, forestry and food aid by country and region from 1961 to present. FAOSTAT is a multilingual database. Data can be searched, browsed, and downloaded.

re3data.org 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

UAVDT Dataset

The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.

datasetninja.com 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录