five

grammarly/spivavtor

收藏
Hugging Face2025-02-05 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/grammarly/spivavtor
下载链接
链接失效反馈
官方服务:
资源简介:
这是用于训练所有Spivavtor模型的数据集。它包含了四个任务的数据:语法错误纠正(GEC)、简化、连贯性和改写。具体细节如下:语法错误纠正任务有27,929个训练样本和3,103个验证样本;简化任务有11,501个训练样本和1,278个验证样本;连贯性任务有9,278个训练样本和1,031个验证样本;改写任务有14,076个训练样本和1,564个验证样本。总共有62,784个训练样本和6,976个验证样本。数据集以JSON格式存储,每个数据实例包含唯一的ID、输入文本(乌克兰语)、输出文本(乌克兰语)和任务类型。

这是用于训练所有Spivavtor模型的数据集。它包含了四个任务的数据:语法错误纠正(GEC)、简化、连贯性和改写。具体细节如下:语法错误纠正任务有27,929个训练样本和3,103个验证样本;简化任务有11,501个训练样本和1,278个验证样本;连贯性任务有9,278个训练样本和1,031个验证样本;改写任务有14,076个训练样本和1,564个验证样本。总共有62,784个训练样本和6,976个验证样本。数据集以JSON格式存储,每个数据实例包含唯一的ID、输入文本(乌克兰语)、输出文本(乌克兰语)和任务类型。
提供机构:
grammarly
原始信息汇总

数据集概述

数据集名称

Spivavtor

数据集用途

用于训练Spivavtor模型的数据集,包含以下四种任务:

  • 语法错误修正(GEC)
  • 简化
  • 连贯性
  • 改写

数据集详细信息

  • 语法错误修正(GEC):训练数据27,929个示例,验证数据3,103个示例。
  • 简化:训练数据11,501个示例,验证数据1,278个示例。
  • 连贯性:训练数据9,278个示例,验证数据1,031个示例。
  • 改写:训练数据14,076个示例,验证数据1,564个示例。
  • 总计:训练数据62,784个示例,验证数据6,976个示例。

数据集结构

  • 格式:JSON
  • 数据实例结构:
    • id:实例的唯一ID
    • src:乌克兰语输入文本
    • tgt:乌克兰语输出文本
    • task:该实例的文本编辑任务

许可

cc-by-nc-4.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作