five

DSGram-Eval, DSGram-LLMs|语法错误纠正数据集|大型语言模型评估数据集

收藏
arXiv2024-12-17 更新2024-12-19 收录
语法错误纠正
大型语言模型评估
下载链接:
https://huggingface.co/datasets/jxtse/DSGram
下载链接
链接失效反馈
资源简介:
DSGram数据集由北京大学王选计算机研究所创建,旨在用于语法错误纠正(GEC)模型的评估。该数据集包含DSGram-Eval和DSGram-LLMs两个子集,分别通过人工评分和LLM模拟评分生成,用于验证算法和微调模型。数据集内容包括来自CoNLL-2014和BEA-2019测试集的句子,涵盖语义一致性、编辑级别和流畅性等多个评估维度。创建过程结合了人工标注和LLM模拟,确保数据集的多样性和准确性。DSGram数据集主要应用于GEC模型的评估和优化,旨在解决传统评估方法在大型语言模型时代中的不足。
提供机构:
北京大学王选计算机研究所
创建时间:
2024-12-17
原始信息汇总

DSGram 数据集

数据集概述

DSGram 数据集是为评估和开发语法错误纠正(GEC)模型而设计的,特别是在大规模语言模型(LLMs)时代。该数据集通过结合人工标注和LLM生成的评分,解决了关键的评估挑战。数据集包含两个子集:

  1. DSGram-LLMs:一个模拟数据集,包含由GPT-4标注的句子对,用于GEC模型的微调和成本效益评估。
  2. DSGram-Eval:一个手动标注的数据集,提供高质量的人工评分示例,用于基准测试DSGram框架。

数据集支持基于以下三个子指标的修正评估:

  • 语义一致性:保留原始含义。
  • 编辑级别:修改的适当性。
  • 流畅性:语法正确性和自然流畅性。

数据集结构

DSGram-LLMs

  • 输入:来自CoNLL-2014和BEA-2019测试集的原始和修正句子。
  • 标注:由GPT-4使用提示工程技术(Chain-of-Thought, few-shot prompting)生成的评分。
  • 大小:约2,500条数据。

DSGram-Eval

  • 输入:来自CoNLL-2014的句子。
  • 标注:基于三个子指标的人工评分句子对,多个标注者以确保一致性。
  • 大小:约200条数据。

数据集用途

预期用途

  • 微调开源LLMs以进行GEC评估。
  • 使用稳健且上下文敏感的指标基准测试GEC模型。
  • 研究文本修正任务的评估框架。

引用

如果使用这些数据集,请引用相关论文。

AI搜集汇总
数据集介绍
main_image_url
构建方式
DSGram-Eval和DSGram-LLMs数据集的构建基于人类评分和大规模语言模型(LLMs)生成的模拟数据。DSGram-Eval数据集通过招募人类标注者对CoNLL-2014和BEA-2019测试集中的句子进行详细评分,涵盖语义一致性、编辑级别和流畅性等维度。DSGram-LLMs数据集则利用GPT-4生成模拟人类评分的子指标分数,进一步用于模型微调。这两个数据集共同为验证DSGram评估框架的有效性提供了坚实的基础。
特点
DSGram数据集的显著特点在于其综合性和动态性。DSGram-Eval通过人类标注确保了评分的准确性和可靠性,而DSGram-LLMs则通过LLMs生成的模拟数据扩展了数据集的规模和多样性。此外,DSGram数据集引入了新的子指标,如编辑级别,以更好地评估LLMs在语法错误纠正中的过度编辑问题,从而提升了评估的全面性和针对性。
使用方法
DSGram数据集主要用于验证和微调语法错误纠正(GEC)模型的评估框架。研究者可以通过DSGram-Eval数据集进行人类评分的对比实验,以评估不同GEC模型的性能。DSGram-LLMs数据集则可用于微调开源LLMs,如LLaMA,以提高其在GEC任务中的评分一致性和准确性。通过结合这两个数据集,研究者能够更全面地评估和优化GEC模型的表现。
背景与挑战
背景概述
随着大规模语言模型(LLMs)在语法错误纠正(GEC)领域的广泛应用,传统的基于参考的评估方法逐渐暴露出其局限性,尤其是在LLMs生成的修正与黄金参考存在显著差异时。为应对这一挑战,北京大学和北京交通大学的研究团队提出了DSGram评估框架,该框架通过动态加权机制整合语义一致性、编辑级别和流畅性三个子指标,并利用层次分析法(AHP)与LLMs相结合,以确定各评估标准的相对重要性。DSGram不仅引入了新的子指标以优化现有评估方法,还通过人工标注和LLMs模拟生成的句子构建了DSGram-Eval和DSGram-LLMs两个数据集,旨在验证其算法的有效性并优化更具成本效益的模型。
当前挑战
DSGram数据集的构建与应用面临多重挑战。首先,传统的基于参考的评估指标如BLEU和ERRANT在处理LLMs生成的过度修正时表现不佳,无法准确反映模型的实际性能。其次,构建过程中,如何确保人工标注与LLMs模拟生成的句子在语义一致性、编辑级别和流畅性上的准确性,是一个复杂且耗时的任务。此外,动态加权机制的引入虽然提升了评估的灵活性,但也增加了计算复杂度,如何在高效率与高准确性之间取得平衡,是DSGram面临的重要挑战。最后,随着LLMs的不断发展,如何持续更新和优化评估框架,以适应新的模型和应用场景,也是DSGram未来需要解决的问题。
常用场景
经典使用场景
DSGram-Eval和DSGram-LLMs数据集的经典使用场景主要集中在语法错误纠正(GEC)模型的评估上。这些数据集通过结合语义一致性、编辑级别和流畅性等多个子指标,提供了对GEC模型性能的全面评估。通过动态加权机制,DSGram框架能够根据不同的评估场景调整各子指标的权重,从而更准确地反映模型在不同文本类型中的表现。
解决学术问题
DSGram数据集解决了传统语法错误纠正评估中存在的几个关键问题。首先,它克服了传统基于参考的评估方法在处理大语言模型(LLM)输出时的局限性,这些模型可能产生与黄金参考不一致的修正。其次,DSGram通过引入动态加权机制,解决了现有评估指标与人类判断不一致的问题,提升了评估的准确性和可靠性。
衍生相关工作
DSGram数据集的提出催生了一系列相关研究工作。首先,基于DSGram的评估框架,研究者们进一步探索了如何利用大语言模型(如GPT-4)生成更准确的评估分数,并验证了这些分数与人类判断的高度一致性。其次,DSGram的动态加权机制启发了其他领域的评估方法,特别是在需要根据不同场景调整评估标准的任务中。此外,DSGram数据集的构建方法也为其他自然语言处理任务的数据集设计提供了参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

DALY

DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

Fruits-360

一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录