five

agentlans/english-grammaticality

收藏
Hugging Face2024-06-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/agentlans/english-grammaticality
下载链接
链接失效反馈
官方服务:
资源简介:
English Grammaticality Dataset包含由母语者评定的英语句子及其语法得分。该数据集由两个其他数据集组合而成,包含7350个句子,每个句子以JSONLines格式表示,包含text、score和source三个字段。text字段为英语句子,score字段为母语者评定的语法得分,范围为0到4,source字段表示句子来源。数据集可用于训练语法检查器、分析句子语法性以及理解英语语法性的影响因素。然而,数据集规模较小,语法得分基于母语者的判断,可能与正式语法规则不完全一致,且句子在语法性水平和用例上不平衡。

English Grammaticality Dataset包含由母语者评定的英语句子及其语法得分。该数据集由两个其他数据集组合而成,包含7350个句子,每个句子以JSONLines格式表示,包含text、score和source三个字段。text字段为英语句子,score字段为母语者评定的语法得分,范围为0到4,source字段表示句子来源。数据集可用于训练语法检查器、分析句子语法性以及理解英语语法性的影响因素。然而,数据集规模较小,语法得分基于母语者的判断,可能与正式语法规则不完全一致,且句子在语法性水平和用例上不平衡。
提供机构:
agentlans
原始信息汇总

English Grammaticality Dataset 概述

数据集基本信息

  • 许可证: cc
  • 任务类别: 文本分类
  • 语言: 英语
  • 数据集大小: 1K<n<10K

数据集内容

  • 组成: 包含7350个英语句子,每个句子以JSONLines格式存储,包含以下字段:
    • text: 英语句子
    • score: 句子语法正确性的平均评分,评分范围0到4,由6或5位母语者评定
    • source: 句子来源,可能是gug-data或tmu_gfm
  • 测试集: 随机选取800行作为测试集

数据集用途

  • 训练语法检查器
  • 分析文本中句子的语法正确性
  • 理解影响英语语法正确性的因素

数据集限制

  • 数据集较小,仅包含7350个句子
  • 语法评分基于母语者判断,可能不完全符合正式语法规则
  • 数据集中的句子在所有语法水平和使用场景上不平衡
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作