SLATE
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/SLATE
下载链接
链接失效反馈官方服务:
资源简介:
SLATE论文中使用的火车,验证和测试数据集可以分别在data/train.csv,data/val.csv和data/test.csv中找到。“注释” 列包含从根据以下内容注释的墨水文档中识别的文本:
<s> 句子 <a0>: 非任务型句子 (例如,我爱墨水!)
<s> 句子 <a1>: 任务句子 (例如,将代码审查会议安排在明天。)
<s> 句子 <a2>: 通用任务 (例如,我会做的。)
<s> 句子 <a3>: 由于上下文原因的任务句子。<s> 句子 <a4>: 由于上下文原因的非任务句子。
在SLATE论文中,除 <a0> 注释标签外,所有都被视为任务句子。
wr_lines列给出了识别文本的文档行列表。对于使用换行符的实验,我们在这些文档行之间插入它们。line_list_item掩码列是一个与wr_lines长度相同的列表,其中1表示该行是项目符号,0表示该行不是项目符号。
提供机构:
OpenDataLab
创建时间:
2022-11-24
搜集汇总
数据集介绍

背景与挑战
背景概述
SLATE数据集是用于同名论文的研究,包含训练、验证和测试三个CSV文件,其中'注释'列标注了文本类型,'wr_lines'列列出了文档行。该数据集由微软于2022年发布,相关资源可在GitHub和arXiv上找到。
以上内容由遇见数据集搜集并总结生成



