ToTTo|自然语言处理数据集|文本生成数据集
收藏ToTTo 数据集概述
数据集描述
- 名称: ToTTo 数据集
 - 类型: 开放域英语表到文本数据集
 - 规模: 包含超过120,000个训练实例
 - 任务: 控制生成任务,给定一个维基百科表格和一组高亮显示的表格单元,生成一个单句描述
 - 数据来源: 从英语维基百科中提取的表格,匹配(有噪声的)描述,并通过迭代清理和修正描述以忠实反映高亮单元格的内容
 - 数据格式: 包含三个
.jsonl文件,每个文件的每一行是一个JSON字典,包含表格元数据、高亮单元格信息、示例ID和句子注释等 
数据集结构
- 表格元数据: 包括
table_page_title,table_section_title,table_section_text - 高亮单元格: 以
List[[row_index, column_index]]格式表示 - 示例ID: 每个示例的唯一ID
 - 句子注释: 包含原始句子及一系列修订后的句子,最终生成
final_sentence 
官方任务
- 输入: 表格、高亮单元格和表格元数据
 - 输出: 生成
final_sentence 
开发和测试集
- 参考数量: 开发集和测试集每个示例有两到三个参考
 - 测试集注释: 私有,不包含在数据中
 - 数据集分割: 开发和测试集分为两部分,一部分使用已见过的表头组合,另一部分使用未见过的组合,通过
overlap_subset: bool标志区分 
数据集下载
- 
下载命令:
wget https://storage.googleapis.com/totto-public/totto_data.zip unzip totto_data.zip
 - 
包含文件:
totto_train_data.jsonl,totto_dev_data.jsonl,unlabeled_totto_test_data.jsonl 
评估和提交
领导者板
- 评估指标: BLEU, PARENT, BLEURT
 - 数据使用: 请求不将ToTTo开发集用于训练,仅用于验证/超参数调整
 - 领导者板链接: 包含在README文件中,显示不同模型的性能和是否使用额外维基数据训练的信息
 

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录
中国区域250米植被覆盖度数据集(2000-2024)
该数据集是中国区域2000至2024年月度植被覆盖度产品,空间分辨率250米,合成方式采用月最大值合成,每年12期,共299期。本产品采用基于归一化植被指数(NDVI)像元二分模型,根据土地利用类型确定纯植被像元值和纯裸土像元值,实现植被覆盖度计算。本产品去除湖泊、河流、冰川/永久积雪等区域。其中,NDVI数据来源于国家青藏高原科学数据中心中国区域250米归一化植被指数数据集(2000-2024)产品。通过时空变化趋势分析检验法分析,该数据集符合时间变化趋势和空间变化趋势。该数据集能够为全国区域生态质量评价、重要生态空间调查评估等工作提供数据参考。
国家青藏高原科学数据中心 收录
Stanford Cars
Cars数据集包含196类汽车的16,185图像。数据被分成8,144训练图像和8,041测试图像,其中每个类被大致分成50-50。类别通常在品牌,型号,年份,例如2012特斯拉Model S或2012 BMW M3 coupe的级别。
OpenDataLab 收录
