ToTTo|自然语言处理数据集|文本生成数据集
收藏ToTTo 数据集概述
数据集描述
- 名称: ToTTo 数据集
- 类型: 开放域英语表到文本数据集
- 规模: 包含超过120,000个训练实例
- 任务: 控制生成任务,给定一个维基百科表格和一组高亮显示的表格单元,生成一个单句描述
- 数据来源: 从英语维基百科中提取的表格,匹配(有噪声的)描述,并通过迭代清理和修正描述以忠实反映高亮单元格的内容
- 数据格式: 包含三个
.jsonl
文件,每个文件的每一行是一个JSON字典,包含表格元数据、高亮单元格信息、示例ID和句子注释等
数据集结构
- 表格元数据: 包括
table_page_title
,table_section_title
,table_section_text
- 高亮单元格: 以
List[[row_index, column_index]]
格式表示 - 示例ID: 每个示例的唯一ID
- 句子注释: 包含原始句子及一系列修订后的句子,最终生成
final_sentence
官方任务
- 输入: 表格、高亮单元格和表格元数据
- 输出: 生成
final_sentence
开发和测试集
- 参考数量: 开发集和测试集每个示例有两到三个参考
- 测试集注释: 私有,不包含在数据中
- 数据集分割: 开发和测试集分为两部分,一部分使用已见过的表头组合,另一部分使用未见过的组合,通过
overlap_subset: bool
标志区分
数据集下载
-
下载命令:
wget https://storage.googleapis.com/totto-public/totto_data.zip unzip totto_data.zip
-
包含文件:
totto_train_data.jsonl
,totto_dev_data.jsonl
,unlabeled_totto_test_data.jsonl
评估和提交
领导者板
- 评估指标: BLEU, PARENT, BLEURT
- 数据使用: 请求不将ToTTo开发集用于训练,仅用于验证/超参数调整
- 领导者板链接: 包含在README文件中,显示不同模型的性能和是否使用额外维基数据训练的信息

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
FAOSTAT
FAOSTAT provides time-series data about agriculture, nutrition, fisheries, forestry and food aid by country and region from 1961 to present. FAOSTAT is a multilingual database. Data can be searched, browsed, and downloaded.
re3data.org 收录
AIS数据集
该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。
github 收录
UAVDT Dataset
The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.
datasetninja.com 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录