agentlans/english-grammaticality
收藏Hugging Face2024-06-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/agentlans/english-grammaticality
下载链接
链接失效反馈官方服务:
资源简介:
English Grammaticality Dataset包含由母语者评定的英语句子及其语法得分。该数据集由两个其他数据集组合而成,包含7350个句子,每个句子以JSONLines格式表示,包含text、score和source三个字段。text字段为英语句子,score字段为母语者评定的语法得分,范围为0到4,source字段表示句子来源。数据集可用于训练语法检查器、分析句子语法性以及理解英语语法性的影响因素。然而,数据集规模较小,语法得分基于母语者的判断,可能与正式语法规则不完全一致,且句子在语法性水平和用例上不平衡。
English Grammaticality Dataset包含由母语者评定的英语句子及其语法得分。该数据集由两个其他数据集组合而成,包含7350个句子,每个句子以JSONLines格式表示,包含text、score和source三个字段。text字段为英语句子,score字段为母语者评定的语法得分,范围为0到4,source字段表示句子来源。数据集可用于训练语法检查器、分析句子语法性以及理解英语语法性的影响因素。然而,数据集规模较小,语法得分基于母语者的判断,可能与正式语法规则不完全一致,且句子在语法性水平和用例上不平衡。
提供机构:
agentlans
原始信息汇总
English Grammaticality Dataset 概述
数据集基本信息
- 许可证: cc
- 任务类别: 文本分类
- 语言: 英语
- 数据集大小: 1K<n<10K
数据集内容
- 组成: 包含7350个英语句子,每个句子以JSONLines格式存储,包含以下字段:
text: 英语句子score: 句子语法正确性的平均评分,评分范围0到4,由6或5位母语者评定source: 句子来源,可能是gug-data或tmu_gfm
- 测试集: 随机选取800行作为测试集
数据集用途
- 训练语法检查器
- 分析文本中句子的语法正确性
- 理解影响英语语法正确性的因素
数据集限制
- 数据集较小,仅包含7350个句子
- 语法评分基于母语者判断,可能不完全符合正式语法规则
- 数据集中的句子在所有语法水平和使用场景上不平衡



