jhu-clsp/jfleg

Name: jhu-clsp/jfleg
Creator: jhu-clsp
Published: 2024-02-06 07:47:11
License: 暂无描述

Hugging Face2024-02-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/jhu-clsp/jfleg

下载链接

链接失效反馈

官方服务：

资源简介：

JFLEG（JHU FLuency-Extended GUG）是一个英语语法错误纠正（GEC）语料库，用于开发和评估GEC系统在流畅性（文本听起来是否像母语者）和语法正确性方面的表现。每个源文档都有四个由人类编写的纠正版本。数据集包含1511个示例，分为开发集和测试集，分别包含754和747个源句子，每个句子有四个对应的纠正版本。

JFLEG (JHU FLuency-Extended GUG) is an English grammatical error correction (GEC) corpus designed for developing and evaluating GEC systems in terms of fluency (whether text sounds natural to native speakers) and grammatical correctness. Each source sentence has four human-written correction versions. The dataset contains 1,511 total instances, which are split into a development set and a test set, with 754 and 747 source sentences respectively, and each source sentence is paired with four corresponding correction versions.

提供机构：

jhu-clsp

原始信息汇总

数据集概述

数据集名称

名称: JFLEG (JHU FLuency-Extended GUG corpus)
别名: JFLEG

数据集描述

目的: 用于英语语法错误纠正（GEC）的基准测试，特别关注文本的流畅性和语法正确性。
内容: 每个源文档包含四个由专家生成的修正版本。

数据集特性

语言: 英语
许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License
多语言性: 单语种，针对其他语言学习者
大小: 数据集包含1000至10000个实例

数据集结构

数据实例: 每个实例包含一个源句子和四个修正版本。
数据字段:
- sentence: 英语学习者编写的原始句子
- corrections: 由人类注释者提供的修正版本
数据分割:
- 验证集: 755个实例
- 测试集: 748个实例

数据集创建

注释创建者: 专家生成
源数据: 扩展自其他-GUG-grammaticality-judgements

数据集使用考虑

许可证信息: 该工作根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License授权。
引用信息: 由Napoles et al., 2020提出。

数据集概述

数据集名称

名称: JFLEG (JHU FLuency-Extended GUG corpus)
别名: JFLEG

数据集描述

目的: 用于英语语法错误纠正（GEC）的基准测试，特别关注文本的流畅性和语法正确性。
内容: 每个源文档包含四个由专家生成的修正版本。

数据集特性

语言: 英语
许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License
多语言性: 单语种，针对其他语言学习者
大小: 数据集包含1000至10000个实例

数据集结构

数据实例: 每个实例包含一个源句子和四个修正版本。
数据字段:
- sentence: 英语学习者编写的原始句子
- corrections: 由人类注释者提供的修正版本
数据分割:
- 验证集: 755个实例
- 测试集: 748个实例

数据集创建

注释创建者: 专家生成
源数据: 扩展自其他-GUG-grammaticality-judgements

数据集使用考虑

许可证信息: 该工作根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License授权。
引用信息: 由Napoles et al., 2020提出。

搜集汇总

数据集介绍

构建方式

在语法错误纠正（GEC）领域，JFLEG数据集作为一项金标准基准应运而生，旨在评估系统对文本流畅性与语法性的双重修复能力。该数据集由约翰霍普金斯大学团队构建，其基础源自GUG（Grammaticality Judgments）语料库，通过扩展与精炼形成。每个源句子均由四位专业标注者独立撰写修正版本，确保了纠正的多样性与权威性。数据划分包含验证集（755例）与测试集（748例），共计1511个实例，每个实例均以原始句子与四个对应修正句的形式存储，为模型训练与评估提供了结构化支持。

特点

JFLEG数据集的核心特点在于其双重评估维度：既关注语法错误的修正，更强调文本的母语化流畅度。与仅侧重语法性的传统语料不同，该数据集通过多人标注机制捕捉了同一错误的不同修正可能性，反映了语言表达的多样性。此外，数据集涵盖英语母语者与二语学习者的真实写作样本，提升了跨场景适用性。其标注一致性（如标注者顺序固定）与开源许可（CC-BY-NC-SA 4.0）进一步增强了可复现性与学术价值。

使用方法

在文本生成任务中，JFLEG数据集主要用于训练与评估语法错误纠正模型。使用时，用户可加载验证集与测试集，将'sentence'字段作为模型输入，'corrections'列表作为参考标准。典型流程包括：利用验证集进行超参数调优与模型选择，通过测试集计算BLEU、GLEU等流畅性指标及语法性评分。由于每句提供四个参考修正，推荐采用多参考评估策略以全面衡量模型性能。数据集已集成至HuggingFace Datasets库，支持通过load_dataset('jhu-clsp/jfleg')快速调用。

背景与挑战

背景概述

JFLEG（JHU FLuency-Extended GUG）语料库由约翰霍普金斯大学的Courtney Napoles、Keisuke Sakaguchi与Joel Tetreault于2017年创建，旨在推动英语语法错误纠正（GEC）领域的评估标准革新。传统GEC基准多聚焦于语法正确性，而忽视了文本的流利度——即是否接近母语者的自然表达。该数据集通过为每个源句提供四条人工修正答案，开创性地将流利度作为核心评估维度，弥补了当时GEC系统评价的盲区。作为EACL 2017提出的黄金标准基准，JFLEG不仅被广泛用于模型性能对比，更深刻影响了后续研究对语言生成质量的多维度考量，成为自然语言处理中语法纠错任务不可或缺的标杆资源。

当前挑战

JFLEG所应对的核心挑战在于，传统GEC系统常以语法正确性为唯一目标，却产出虽无语法错误但生硬晦涩的文本，难以满足实际应用中对自然流利表达的需求。该数据集通过引入流利度评估，迫使模型在修正语法错误的同时兼顾语言的地道性与连贯性，提升了任务的复杂性与实用性。在构建过程中，挑战尤为突出：首先，需从非母语写作者的真实语料中筛选代表性句子，确保覆盖常见错误类型；其次，组织四位母语者独立修正同一句子，以捕捉多样化的正确表达，而协调注释者间的一致性并保留合理差异，对标注流程的设计与质量控制提出了极高要求。

常用场景

经典使用场景

在自然语言处理领域，JFLEG数据集作为语法纠错（GEC）任务的黄金标准基准，其经典使用场景聚焦于评估和比较不同GEC系统在提升文本流畅性与语法正确性方面的综合能力。该数据集包含1511个由英语学习者撰写的源句子，每个句子配备四条由专家手工修正的参考译文，从而为模型训练与性能衡量提供了高质量的多参考标注。研究者通常利用其验证集与测试集进行模型调优和最终评测，通过计算系统输出与多条参考之间的编辑距离、流畅性评分等指标，客观判断纠错系统的优劣。这一场景不仅检验模型对语法错误的识别与修正能力，更强调对母语表达习惯的还原，推动GEC技术从单纯纠正错误向生成地道文本迈进。

实际应用

在实际应用中，JFLEG数据集驱动的语法纠错技术广泛服务于英语作为第二语言（ESL）学习者的写作辅助工具。基于该基准训练的系统可嵌入在线教育平台、智能写作助手或文本编辑器中，实时为用户提供语法修正与表达优化建议。例如，学生在撰写学术论文或商务邮件时，系统能不仅纠正时态、主谓一致等错误，还能推荐更符合母语习惯的遣词造句，从而提升文本的可读性与专业性。此外，该技术还可用于自动评估大规模作文批改中的语言质量，减轻教师负担，或在国际交流场景中辅助非母语者生成流畅的沟通内容。JFLEG对流畅性的强调，使得这些实际应用更贴近用户对“自然语言”的期待，显著增强了人机交互的体验与效率。

衍生相关工作

JFLEG数据集催生了一系列经典学术工作，深化了语法纠错领域的研究。Napoles等人（2017）在提出该基准的同时，发表配套论文详细阐述了流畅性评估的重要性，为后续研究奠定了理论基础。此后，基于JFLEG的排行榜涌现出众多创新模型，如使用序列到序列框架结合注意力机制的GEC系统，以及利用BERT、GPT等预训练语言模型进行微调的方法。这些工作不仅提升了纠错准确率，还探索了多参考融合、排序学习等策略以优化输出流畅性。此外，研究者将JFLEG与其他GEC数据集（如CoNLL-2014）联合使用，构建更全面的训练与评估体系，推动了跨数据集泛化能力的研究。JFLEG还启发了对非英语语言的流畅性纠错语料构建，如中文、日语等，从而扩展了该领域的技术边界与国际影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集