DSGram
收藏Hugging Face2024-12-17 更新2024-12-18 收录
下载链接:
https://huggingface.co/datasets/jxtse/DSGram
下载链接
链接失效反馈官方服务:
资源简介:
数据集DSGram是为评估和发展语法错误修正(GEC)模型而设计的,特别是在大规模语言模型(LLMs)时代。数据集包含两个子集:DSGram-LLMs和DSGram-Eval。DSGram-LLMs是一个模拟数据集,包含由GPT-4注释的句子对,用于微调和成本效益高的GEC模型评估。DSGram-Eval是一个手动注释的数据集,提供高质量的人类评分示例,以基准测试DSGram框架。数据集支持基于三个子指标的修正评估:语义一致性、编辑级别和流利度。DSGram-LLMs的输入来自CoNLL-2014和BEA-2019测试集,包含约2,500个条目。DSGram-Eval的输入来自CoNLL-2014,包含约200个条目,并有多个注释者以确保一致性。数据集的主要用途包括微调开源LLMs进行GEC评估、使用稳健和上下文敏感的指标基准测试GEC模型,以及研究文本修正任务的评估框架。
创建时间:
2024-12-14
原始信息汇总
DSGram 数据集
数据集概述
DSGram 数据集旨在评估和开发大型语言模型(LLMs)时代的语法错误纠正(GEC)模型。该数据集通过结合人工标注和LLM生成的分数,解决了关键的评估挑战。数据集包含两个子集:
- DSGram-LLMs:一个模拟数据集,包含由GPT-4标注的句子对,用于GEC模型的微调和成本效益评估。
- DSGram-Eval:一个手动标注的数据集,提供高质量的人工评分示例,用于基准测试DSGram框架。
数据集支持基于以下三个子指标的修正评估:
- 语义一致性:保留原始意义。
- 编辑级别:修改的适当性。
- 流畅性:语法正确性和自然流畅性。
数据集结构
DSGram-LLMs
- 输入:来自CoNLL-2014和BEA-2019测试集的原始和修正句子。
- 标注:由GPT-4使用提示工程技术(Chain-of-Thought, few-shot prompting)生成的分数。
- 大小:约2,500条记录。
DSGram-Eval
- 输入:来自CoNLL-2014的句子。
- 标注:基于三个子指标的人工评分句子对。
- 大小:约200条记录,多个标注者以确保一致性。
数据集用途
预期用途
- 微调开源LLMs以进行GEC评估。
- 使用稳健且上下文敏感的指标基准测试GEC模型。
- 研究文本修正任务的评估框架。
引用
如果使用这些数据集,请引用我们的论文。
搜集汇总
数据集介绍

构建方式
DSGram数据集的构建旨在应对大规模语言模型(LLMs)时代语法错误纠正(GEC)模型的评估与发展需求。该数据集通过整合人工标注与LLM生成的评分,提供了两个子集:DSGram-LLMs和DSGram-Eval。DSGram-LLMs子集包含由GPT-4标注的句子对,利用提示工程技术(如Chain-of-Thought和few-shot prompting)生成评分,适用于模型微调与成本效益评估。DSGram-Eval子集则由人工标注,提供了高质量的人工评分,确保了评估的准确性与一致性。
特点
DSGram数据集的显著特点在于其多维度的评估指标,包括语义连贯性、编辑级别和流利度,这些指标共同构成了对语法错误纠正模型的全面评估框架。此外,数据集的构建结合了人工与机器智能的优势,既保证了评分的准确性,又提高了数据处理的效率。DSGram-LLMs子集的规模约为2,500条,而DSGram-Eval子集则包含约200条,每条均有多个标注者进行评分,以确保数据的一致性和可靠性。
使用方法
DSGram数据集主要用于开源LLMs的微调,以及语法错误纠正模型的基准测试。通过使用该数据集,研究者可以探索和验证在文本修正任务中评估框架的有效性。具体使用时,用户可以根据DSGram-LLMs子集进行模型微调,利用GPT-4生成的评分进行成本效益评估;同时,DSGram-Eval子集则提供了人工评分的高质量样本,用于模型的严格基准测试。在使用过程中,建议引用相关文献以确保学术规范。
背景与挑战
背景概述
在自然语言处理领域,语法错误纠正(Grammatical Error Correction, GEC)一直是研究的热点之一。随着大规模语言模型(Large Language Models, LLMs)的兴起,GEC模型的评估与开发面临新的挑战。DSGram数据集应运而生,旨在通过结合人类注释和LLM生成的评分,解决GEC模型评估中的关键问题。该数据集由两个子集组成:DSGram-LLMs和DSGram-Eval。DSGram-LLMs包含由GPT-4注释的句子对,用于模型微调和成本效益评估;DSGram-Eval则提供高质量的人工评分样本,用于基准测试。DSGram数据集的推出,不仅为GEC模型的评估提供了新的工具,也为相关领域的研究提供了宝贵的资源。
当前挑战
DSGram数据集在构建过程中面临多项挑战。首先,如何确保LLM生成的评分与人类注释的一致性是一个关键问题。尽管GPT-4等模型在生成自然语言方面表现出色,但其生成的评分仍需与人工评分进行对比和校准。其次,数据集的规模和多样性也是一个挑战。DSGram-LLMs虽然包含约2,500个条目,但对于复杂的GEC任务来说,数据量可能仍显不足。此外,DSGram-Eval的构建需要多个人工注释者进行评分,以确保评分的可靠性和一致性,这也增加了数据集构建的复杂性和成本。最后,如何设计有效的评估框架,使得模型能够在语义一致性、修改适当性和流畅性等多个维度上进行评估,也是DSGram数据集面临的重要挑战。
常用场景
经典使用场景
DSGram数据集在语法错误纠正(GEC)领域中扮演着重要角色,尤其适用于大规模语言模型(LLMs)的评估与开发。其经典使用场景包括利用DSGram-LLMs子集进行GEC模型的微调与成本效益评估,以及通过DSGram-Eval子集进行高质量的人工标注基准测试。这些数据集通过提供语义一致性、编辑级别和流利度三个子指标的评估,帮助研究者更全面地衡量和改进GEC模型的性能。
衍生相关工作
DSGram数据集的发布催生了一系列相关研究工作,特别是在GEC模型的评估和改进方面。例如,研究者利用DSGram-LLMs进行大规模语言模型的微调,探索新的提示工程技术,如Chain-of-Thought和few-shot prompting。此外,DSGram-Eval的高质量人工标注数据也激发了对GEC评估框架的深入研究,推动了语义一致性和编辑级别等新评估指标的发展。这些衍生工作不仅丰富了GEC领域的研究内容,还为实际应用提供了更强大的技术支持。
数据集最近研究
最新研究方向
在语法错误纠正(GEC)领域,DSGram数据集的最新研究方向主要聚焦于利用大规模语言模型(LLMs)进行高效的模型评估与开发。通过引入GPT-4标注的DSGram-LLMs子集,研究者能够以较低成本进行模型微调与评估,同时探索链式思维和少样本提示等前沿技术在GEC任务中的应用。此外,DSGram-Eval子集通过人工标注提供了高质量的基准数据,进一步推动了基于语义一致性、编辑级别和流畅性等多维度评估框架的研究。这些进展不仅提升了GEC模型的性能,还为文本纠错任务的评估方法提供了新的视角和工具。
以上内容由遇见数据集搜集并总结生成



