grammarly/spivavtor
收藏Hugging Face2025-02-05 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/grammarly/spivavtor
下载链接
链接失效反馈官方服务:
资源简介:
这是用于训练所有Spivavtor模型的数据集。它包含了四个任务的数据:语法错误纠正(GEC)、简化、连贯性和改写。具体细节如下:语法错误纠正任务有27,929个训练样本和3,103个验证样本;简化任务有11,501个训练样本和1,278个验证样本;连贯性任务有9,278个训练样本和1,031个验证样本;改写任务有14,076个训练样本和1,564个验证样本。总共有62,784个训练样本和6,976个验证样本。数据集以JSON格式存储,每个数据实例包含唯一的ID、输入文本(乌克兰语)、输出文本(乌克兰语)和任务类型。
这是用于训练所有Spivavtor模型的数据集。它包含了四个任务的数据:语法错误纠正(GEC)、简化、连贯性和改写。具体细节如下:语法错误纠正任务有27,929个训练样本和3,103个验证样本;简化任务有11,501个训练样本和1,278个验证样本;连贯性任务有9,278个训练样本和1,031个验证样本;改写任务有14,076个训练样本和1,564个验证样本。总共有62,784个训练样本和6,976个验证样本。数据集以JSON格式存储,每个数据实例包含唯一的ID、输入文本(乌克兰语)、输出文本(乌克兰语)和任务类型。
提供机构:
grammarly
原始信息汇总
数据集概述
数据集名称
Spivavtor
数据集用途
用于训练Spivavtor模型的数据集,包含以下四种任务:
- 语法错误修正(GEC)
- 简化
- 连贯性
- 改写
数据集详细信息
- 语法错误修正(GEC):训练数据27,929个示例,验证数据3,103个示例。
- 简化:训练数据11,501个示例,验证数据1,278个示例。
- 连贯性:训练数据9,278个示例,验证数据1,031个示例。
- 改写:训练数据14,076个示例,验证数据1,564个示例。
- 总计:训练数据62,784个示例,验证数据6,976个示例。
数据集结构
- 格式:JSON
- 数据实例结构:
id:实例的唯一IDsrc:乌克兰语输入文本tgt:乌克兰语输出文本task:该实例的文本编辑任务
许可
cc-by-nc-4.0



