texts-labelled-grammaticality

Hugging Face2025-08-09 更新2025-08-10 收录

下载链接：

https://huggingface.co/datasets/hartular/texts-labelled-grammaticality

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含文本内容、得分和用途标签的数据集，共有8个子集，每个子集包含66401个例子。文本内容为字符串类型，得分为浮点数类型。数据集适用于语法不规范的句子在性别、数、人称、性数人称组合等方面的一致性研究。

创建时间：

2025-08-08

原始信息汇总

数据集概述

基本信息

数据集名称: texts-labelled-grammaticality
下载大小: 24,469,621 字节
数据集大小: 98,166,853 字节

数据集特征

text: 字符串类型，表示文本内容
score: 浮点数类型，表示评分
use: 字符串类型，表示用途

数据分割

actual
- 字节数: 12,099,136
- 样本数: 66,401
rrtUngramaticalityAgreeGender
- 字节数: 12,238,113
- 样本数: 66,401
rrtUngramaticalityAgreeNumber
- 字节数: 12,242,476
- 样本数: 66,401
rrtUngramaticalityAgreePerson
- 字节数: 12,199,829
- 样本数: 66,401
rrtUngramaticalityAgreeGenNum
- 字节数: 12,345,858
- 样本数: 66,401
rrtUngramaticalityAgreeGenPers
- 字节数: 12,315,303
- 样本数: 66,401
rrtUngramaticalityAgreeNumPers
- 字节数: 12,311,652
- 样本数: 66,401
rrtUngramaticalityAgreeGenNumPers
- 字节数: 12,414,486
- 样本数: 66,401

配置文件

默认配置
- 数据文件路径:
  - actual: data/actual-*
  - rrtUngramaticalityAgreeGender: data/rrtUngramaticalityAgreeGender-*
  - rrtUngramaticalityAgreeNumber: data/rrtUngramaticalityAgreeNumber-*
  - rrtUngramaticalityAgreePerson: data/rrtUngramaticalityAgreePerson-*
  - rrtUngramaticalityAgreeGenNum: data/rrtUngramaticalityAgreeGenNum-*
  - rrtUngramaticalityAgreeGenPers: data/rrtUngramaticalityAgreeGenPers-*
  - rrtUngramaticalityAgreeNumPers: data/rrtUngramaticalityAgreeNumPers-*
  - rrtUngramaticalityAgreeGenNumPers: data/rrtUngramaticalityAgreeGenNumPers-*

搜集汇总

数据集介绍

构建方式

在语言学研究中，语法性标注数据集对于理解语言结构和语法规则至关重要。texts-labelled-grammaticality数据集通过系统化的数据采集和标注流程构建而成，包含66,401条文本样本，每条样本均标注了文本内容、语法性评分及使用场景。数据集采用多维度划分策略，包含实际使用文本及七种不同语法错误类型的变体，如性别、数、人称等一致性错误，为语法研究提供了丰富的对比素材。

使用方法

该数据集为语法性研究提供了多角度的分析工具。研究者可通过对比实际文本与各类语法错误变体，量化不同语法规则的相对重要性。在自然语言处理领域，该数据集可用于训练和评估语法检查模型，提升模型对语法错误的识别能力。数据集的标准化格式便于直接加载至主流机器学习框架，各子集的独立划分支持灵活的交叉验证实验设计。

背景与挑战

背景概述

texts-labelled-grammaticality数据集是自然语言处理领域的重要资源，专注于文本语法性标注研究。该数据集由匿名研究团队构建，旨在解决语法正确性评估这一核心问题，特别关注性别、数和人称等语法范畴的一致性关系。数据集包含66,401条文本样本，每条样本均标注了语法评分和使用场景，为语法错误检测、语言模型评估等任务提供了量化基准。其多维度的语法标注体系显著提升了计算语言学领域对复杂语法现象的建模能力，尤其在句法分析和语法检查系统开发中展现出独特价值。

当前挑战

该数据集面临的挑战主要体现在两个方面：在领域问题层面，语法性标注本身具有高度主观性，不同语言学家对边缘语法现象的判定可能存在分歧，这给模型训练带来标签噪声；同时，语法错误类型的非均匀分布导致数据不平衡问题，影响模型对低频语法现象的捕捉能力。在构建过程层面，多维度语法范畴（性别-数-人称）的交叉组合大幅增加了标注复杂度，需要设计精细的标注规范；原始语料的文体和领域差异也带来了数据异质性挑战，要求构建者进行严格的语料筛选和归一化处理。

常用场景

经典使用场景

在自然语言处理领域，texts-labelled-grammaticality数据集为语法正确性评估提供了重要基准。该数据集通过标注文本的语法得分和使用场景，成为训练和验证语法检测模型的黄金标准。研究者常利用其丰富的语法错误类型划分，系统性地分析不同语法结构对模型性能的影响，尤其在句法一致性错误的细粒度分类上展现出独特价值。

解决学术问题

该数据集有效解决了语法可接受性量化评估的难题，为句法理论验证提供了数据支撑。通过标注性别、数、人称等七类语法一致性错误，填补了传统语法检查工具在复杂句法现象研究中的空白。其多维评分机制助力研究者建立语法错误与认知负荷的关联模型，推动了可解释性语法分析框架的发展。

实际应用

在教育科技领域，该数据集支撑了智能写作辅助系统的开发，能精准识别非母语学习者的语法偏误。企业将其集成到内容审核流程中，自动检测广告文案和社交媒体文本的语法合规性。语言培训机构基于其细分类别设计针对性练习，显著提升了语法教学效率。

数据集最近研究