five

GEM/totto

收藏
Hugging Face2022-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/totto
下载链接
链接失效反馈
官方服务:
资源简介:
ToTTo是一个高质量的英文表格到文本生成数据集,包含超过100,000个示例。每个示例都包含一个来自维基百科的表格,其中高亮显示的单元格与描述这些单元格的句子配对。数据集中的所有示例都经过多步后编辑,以确保目标句子完全忠实于输入信息。该数据集主要用于表格到文本的自然语言生成任务,并且通过高亮显示的单元格提供了生成控制,避免了生成过程中出现大量有效描述的问题。
提供机构:
GEM
原始信息汇总

数据集概述

数据集名称

ToTTo

数据集描述

ToTTo是一个高质量的英语表到文本数据集,包含超过100,000个示例,其中维基百科的表格与描述高亮单元格的句子配对。所有示例都经过多步骤后编辑,以确保目标完全忠实于输入信息。

语言

  • 英语(en)

许可证

  • cc-by-sa-3.0

多语言性

  • 不支持

数据集大小

  • 未知

源数据集

  • 原始数据

任务类别

  • 表到文本

任务ID

数据集标签

  • 数据到文本

数据集结构

  • table:列表形式,表示表格的行和列。
  • highlighted_cells:高亮单元格的索引列表。
  • example_id:每个示例的唯一ID。
  • sentence_annotations:最终句子的注释。

数据集用途

ToTTo用于表到文本的自然语言生成任务,旨在生成描述高亮表格单元格的自然语言句子。

主要任务

  • 数据到文本

通信目标

生成一个描述给定表格中高亮单元格的连贯英语句子。

数据集创建者

  • Ankur Parikh, Xuezhi Wang, Sebastian Gehrmann, Manaal Faruqui, Bhuwan Dhingra, Diyi Yang, Dipanjan Das

数据集组织

  • Google Research

许可证

  • cc-by-sa-3.0: 知识共享署名-相同方式共享3.0未本地化版本

数据集下载

数据集论文

数据集联系人

  • Ankur Parikh
  • 邮箱:totto@google.com

数据集是否有排行榜

排行榜链接

数据集在GEM中的理由

ToTTo是GEM中代表表到文本自然语言生成任务的两个数据集之一,以其高质量和控制生成任务的特点而著称。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作