grammarly/spivavtor

Name: grammarly/spivavtor
Creator: grammarly
Published: 2025-02-05 22:36:07
License: 暂无描述

Hugging Face2025-02-05 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/grammarly/spivavtor

下载链接

链接失效反馈

官方服务：

资源简介：

这是用于训练所有Spivavtor模型的数据集。它包含了四个任务的数据：语法错误纠正（GEC）、简化、连贯性和改写。具体细节如下：语法错误纠正任务有27,929个训练样本和3,103个验证样本；简化任务有11,501个训练样本和1,278个验证样本；连贯性任务有9,278个训练样本和1,031个验证样本；改写任务有14,076个训练样本和1,564个验证样本。总共有62,784个训练样本和6,976个验证样本。数据集以JSON格式存储，每个数据实例包含唯一的ID、输入文本（乌克兰语）、输出文本（乌克兰语）和任务类型。

提供机构：

grammarly

原始信息汇总

数据集概述

数据集名称

Spivavtor

数据集用途

用于训练Spivavtor模型的数据集，包含以下四种任务：

语法错误修正（GEC）
简化
连贯性
改写

数据集详细信息

语法错误修正（GEC）：训练数据27,929个示例，验证数据3,103个示例。
简化：训练数据11,501个示例，验证数据1,278个示例。
连贯性：训练数据9,278个示例，验证数据1,031个示例。
改写：训练数据14,076个示例，验证数据1,564个示例。
总计：训练数据62,784个示例，验证数据6,976个示例。

数据集结构

格式：JSON
数据实例结构：
- id：实例的唯一ID
- src：乌克兰语输入文本
- tgt：乌克兰语输出文本
- task：该实例的文本编辑任务

许可

cc-by-nc-4.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集