five

juancavallotti/multilingual-gec

收藏
Hugging Face2023-01-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/juancavallotti/multilingual-gec
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集可用于训练Transformer模型(如T5)来纠正英语、西班牙语、法语和德语的简单句子中的语法错误。数据集通过代码生成,并基于互联网上常见的语法错误信息。数据集包含每种语言的句子实例,并提供了语言、原始句子、修改后的句子、主要和次要转换等数据字段。
提供机构:
juancavallotti
原始信息汇总

数据集概述

  • 名称: Multi Lingual Grammar Error Correction Dataset
  • 作者: Juan Alberto López Cavallotti
  • 发布日期: 2023年1月6日
  • 许可: Apache-2.0
  • 标签: 语法, GEC, 多语言, 语言检测
  • 大小: 100K<n<1M

数据集详情

  • 任务类别:
    • 翻译
    • 语法错误修正
    • 语言检测
  • 支持语言:
    • 英语
    • 西班牙语
    • 法语
    • 德语

数据集结构

  • 数据实例:
    • 德语: 32282句
    • 英语: 51393句
    • 西班牙语: 67672句
    • 法语: 67157句
  • 数据字段:
    • lang: 句子语言
    • sentence: 原始句子
    • modified: 错误句子
    • transformation: 主要转换
    • sec_transformation: 次要转换(如有)

数据集创建

  • 来源数据:
    • 初始数据收集自多个开源数据集,如Tatoeba。
  • 注释过程:
    • 自动注释,由生成脚本完成。

其他信息

  • 许可证: Apache 2 License
  • 引用信息: 引用时请提及原始数据集和作者Juan Alberto López Cavallotti。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作