DSGram

Hugging Face2024-12-17 更新2024-12-18 收录

下载链接：

https://huggingface.co/datasets/jxtse/DSGram

下载链接

链接失效反馈

官方服务：

资源简介：

数据集DSGram是为评估和发展语法错误修正（GEC）模型而设计的，特别是在大规模语言模型（LLMs）时代。数据集包含两个子集：DSGram-LLMs和DSGram-Eval。DSGram-LLMs是一个模拟数据集，包含由GPT-4注释的句子对，用于微调和成本效益高的GEC模型评估。DSGram-Eval是一个手动注释的数据集，提供高质量的人类评分示例，以基准测试DSGram框架。数据集支持基于三个子指标的修正评估：语义一致性、编辑级别和流利度。DSGram-LLMs的输入来自CoNLL-2014和BEA-2019测试集，包含约2,500个条目。DSGram-Eval的输入来自CoNLL-2014，包含约200个条目，并有多个注释者以确保一致性。数据集的主要用途包括微调开源LLMs进行GEC评估、使用稳健和上下文敏感的指标基准测试GEC模型，以及研究文本修正任务的评估框架。

创建时间：

2024-12-14

原始信息汇总

DSGram 数据集

数据集概述

DSGram 数据集旨在评估和开发大型语言模型（LLMs）时代的语法错误纠正（GEC）模型。该数据集通过结合人工标注和LLM生成的分数，解决了关键的评估挑战。数据集包含两个子集：

DSGram-LLMs：一个模拟数据集，包含由GPT-4标注的句子对，用于GEC模型的微调和成本效益评估。
DSGram-Eval：一个手动标注的数据集，提供高质量的人工评分示例，用于基准测试DSGram框架。

数据集支持基于以下三个子指标的修正评估：

语义一致性：保留原始意义。
编辑级别：修改的适当性。
流畅性：语法正确性和自然流畅性。

数据集结构

DSGram-LLMs

输入：来自CoNLL-2014和BEA-2019测试集的原始和修正句子。
标注：由GPT-4使用提示工程技术（Chain-of-Thought, few-shot prompting）生成的分数。
大小：约2,500条记录。

DSGram-Eval

输入：来自CoNLL-2014的句子。
标注：基于三个子指标的人工评分句子对。
大小：约200条记录，多个标注者以确保一致性。

数据集用途

预期用途

微调开源LLMs以进行GEC评估。
使用稳健且上下文敏感的指标基准测试GEC模型。
研究文本修正任务的评估框架。

引用

如果使用这些数据集，请引用我们的论文。

搜集汇总

数据集介绍

构建方式

DSGram数据集的构建旨在应对大规模语言模型（LLMs）时代语法错误纠正（GEC）模型的评估与发展需求。该数据集通过整合人工标注与LLM生成的评分，提供了两个子集：DSGram-LLMs和DSGram-Eval。DSGram-LLMs子集包含由GPT-4标注的句子对，利用提示工程技术（如Chain-of-Thought和few-shot prompting）生成评分，适用于模型微调与成本效益评估。DSGram-Eval子集则由人工标注，提供了高质量的人工评分，确保了评估的准确性与一致性。

特点

DSGram数据集的显著特点在于其多维度的评估指标，包括语义连贯性、编辑级别和流利度，这些指标共同构成了对语法错误纠正模型的全面评估框架。此外，数据集的构建结合了人工与机器智能的优势，既保证了评分的准确性，又提高了数据处理的效率。DSGram-LLMs子集的规模约为2,500条，而DSGram-Eval子集则包含约200条，每条均有多个标注者进行评分，以确保数据的一致性和可靠性。

使用方法

DSGram数据集主要用于开源LLMs的微调，以及语法错误纠正模型的基准测试。通过使用该数据集，研究者可以探索和验证在文本修正任务中评估框架的有效性。具体使用时，用户可以根据DSGram-LLMs子集进行模型微调，利用GPT-4生成的评分进行成本效益评估；同时，DSGram-Eval子集则提供了人工评分的高质量样本，用于模型的严格基准测试。在使用过程中，建议引用相关文献以确保学术规范。

背景与挑战

背景概述

在自然语言处理领域，语法错误纠正（Grammatical Error Correction, GEC）一直是研究的热点之一。随着大规模语言模型（Large Language Models, LLMs）的兴起，GEC模型的评估与开发面临新的挑战。DSGram数据集应运而生，旨在通过结合人类注释和LLM生成的评分，解决GEC模型评估中的关键问题。该数据集由两个子集组成：DSGram-LLMs和DSGram-Eval。DSGram-LLMs包含由GPT-4注释的句子对，用于模型微调和成本效益评估；DSGram-Eval则提供高质量的人工评分样本，用于基准测试。DSGram数据集的推出，不仅为GEC模型的评估提供了新的工具，也为相关领域的研究提供了宝贵的资源。

当前挑战

DSGram数据集在构建过程中面临多项挑战。首先，如何确保LLM生成的评分与人类注释的一致性是一个关键问题。尽管GPT-4等模型在生成自然语言方面表现出色，但其生成的评分仍需与人工评分进行对比和校准。其次，数据集的规模和多样性也是一个挑战。DSGram-LLMs虽然包含约2,500个条目，但对于复杂的GEC任务来说，数据量可能仍显不足。此外，DSGram-Eval的构建需要多个人工注释者进行评分，以确保评分的可靠性和一致性，这也增加了数据集构建的复杂性和成本。最后，如何设计有效的评估框架，使得模型能够在语义一致性、修改适当性和流畅性等多个维度上进行评估，也是DSGram数据集面临的重要挑战。

常用场景

经典使用场景

DSGram数据集在语法错误纠正（GEC）领域中扮演着重要角色，尤其适用于大规模语言模型（LLMs）的评估与开发。其经典使用场景包括利用DSGram-LLMs子集进行GEC模型的微调与成本效益评估，以及通过DSGram-Eval子集进行高质量的人工标注基准测试。这些数据集通过提供语义一致性、编辑级别和流利度三个子指标的评估，帮助研究者更全面地衡量和改进GEC模型的性能。

衍生相关工作

DSGram数据集的发布催生了一系列相关研究工作，特别是在GEC模型的评估和改进方面。例如，研究者利用DSGram-LLMs进行大规模语言模型的微调，探索新的提示工程技术，如Chain-of-Thought和few-shot prompting。此外，DSGram-Eval的高质量人工标注数据也激发了对GEC评估框架的深入研究，推动了语义一致性和编辑级别等新评估指标的发展。这些衍生工作不仅丰富了GEC领域的研究内容，还为实际应用提供了更强大的技术支持。

数据集最近研究