GEM/totto
收藏Hugging Face2022-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/totto
下载链接
链接失效反馈官方服务:
资源简介:
ToTTo是一个高质量的英文表格到文本生成数据集,包含超过100,000个示例。每个示例都包含一个来自维基百科的表格,其中高亮显示的单元格与描述这些单元格的句子配对。数据集中的所有示例都经过多步后编辑,以确保目标句子完全忠实于输入信息。该数据集主要用于表格到文本的自然语言生成任务,并且通过高亮显示的单元格提供了生成控制,避免了生成过程中出现大量有效描述的问题。
提供机构:
GEM
原始信息汇总
数据集概述
数据集名称
ToTTo
数据集描述
ToTTo是一个高质量的英语表到文本数据集,包含超过100,000个示例,其中维基百科的表格与描述高亮单元格的句子配对。所有示例都经过多步骤后编辑,以确保目标完全忠实于输入信息。
语言
- 英语(en)
许可证
- cc-by-sa-3.0
多语言性
- 不支持
数据集大小
- 未知
源数据集
- 原始数据
任务类别
- 表到文本
任务ID
- 无
数据集标签
- 数据到文本
数据集结构
table:列表形式,表示表格的行和列。highlighted_cells:高亮单元格的索引列表。example_id:每个示例的唯一ID。sentence_annotations:最终句子的注释。
数据集用途
ToTTo用于表到文本的自然语言生成任务,旨在生成描述高亮表格单元格的自然语言句子。
主要任务
- 数据到文本
通信目标
生成一个描述给定表格中高亮单元格的连贯英语句子。
数据集创建者
- Ankur Parikh, Xuezhi Wang, Sebastian Gehrmann, Manaal Faruqui, Bhuwan Dhingra, Diyi Yang, Dipanjan Das
数据集组织
- Google Research
许可证
- cc-by-sa-3.0: 知识共享署名-相同方式共享3.0未本地化版本
数据集下载
数据集论文
数据集联系人
- Ankur Parikh
- 邮箱:totto@google.com
数据集是否有排行榜
- 是
排行榜链接
数据集在GEM中的理由
ToTTo是GEM中代表表到文本自然语言生成任务的两个数据集之一,以其高质量和控制生成任务的特点而著称。



