five

TGEA

收藏
arXiv2025-03-06 更新2025-03-08 收录
下载链接:
https://download.mindspore.cn/dataset/TGEA/
下载链接
链接失效反馈
官方服务:
资源简介:
TGEA数据集是由天津大学和华为诺亚方舟实验室共同构建的,首个基于机器生成的文本的错误注释数据集,包含多个基准任务,用于评估预训练语言模型在文本生成方面的能力。该数据集从中文GPT-2模型生成的文本中收集原始数据,通过人工标注,检测出错误句子,并进一步进行错误类型、相关文本跨度、错误纠正以及错误原因的标注。数据集涵盖24种错误类型的双层错误分类体系,旨在促进对预训练语言模型生成的文本进行自动错误检测和纠正的研究。

The TGEA dataset, co-developed by Tianjin University and Huawei Noah's Ark Lab, is the first error-annotated dataset for machine-generated text. It includes multiple benchmark tasks designed to evaluate the text generation capabilities of pre-trained language models. Raw data for the dataset is collected from texts generated by Chinese GPT-2 models, where erroneous sentences are identified via manual annotation, followed by further annotations of error types, relevant text spans, error corrections, and error causes. The dataset features a two-tier error classification system covering 24 error types, and aims to advance research on automatic error detection and correction for texts generated by pre-trained language models.
提供机构:
天津大学, 中国; 华为诺亚方舟实验室, 香港, 中国
创建时间:
2025-03-06
搜集汇总
数据集介绍
main_image_url
构建方式
TGEA数据集的构建始于使用预训练语言模型GPT-2生成候选句子。研究者们精心挑选了提示词来引导GPT-2生成句子,并从中选择了47K个句子进行错误标注。众包工作者对这些句子进行了人工检查,并识别出了12k个错误句子。研究团队创建了一个错误分类体系,涵盖了24种不同类型的错误,这些错误是根据语言学和知识(如常识)的性质对错误句子进行分类的。对于每个由预训练语言模型生成的句子中的错误跨度,研究团队还检测了与之紧密相关的另一个跨度。每个错误都被手动标记了详细的注释,包括错误的跨度、相关的跨度、对错误的最低纠正、错误的类型以及错误的理由。除了完全注释的数据集外,研究团队还提供了数据收集过程的详细描述、数据集的统计和分析。
特点
TGEA数据集的特点在于其丰富的语义信息,它不仅包括错误类型、相关文本跨度、错误纠正和错误的理由,而且还创建了一个包含24种错误类型的错误分类体系。这使得TGEA成为首个具有全面注释的预训练语言模型生成文本数据集,从而促进了预训练语言模型文本生成的诊断评估。此外,TGEA数据集不仅展示了预训练语言模型生成的文本中的错误,而且还可以作为训练各种模型以自动检测和纠正这些错误的基准数据集。
使用方法
TGEA数据集的使用方法包括五个基准任务:错误句子检测、错误跨度及其相关跨度检测、错误类型分类、错误纠正和错误理由生成。对于这些任务,研究团队提供了使用最先进模型作为基线的实验结果。这些任务旨在促进未来对预训练语言模型生成文本的自动错误检测和纠正的研究。
背景与挑战
背景概述
自然语言生成(NLG)是自然语言处理(NLP)领域的一项重要任务,旨在让机器能够生成自然流畅的文本。随着预训练语言模型(PLMs)的快速发展,其在NLG任务上展现出惊人的潜力。然而,对于这些模型生成的文本的质量和准确性,目前还缺乏深入的理解和评估。为了解决这个问题,来自天津大学和华为诺亚方舟实验室的研究团队提出了TGEA数据集,该数据集是一个针对预训练语言模型生成的文本进行错误注释的数据集,并包含多个基准任务。TGEA数据集的创建时间是在2025年3月,主要研究人员包括来自天津大学智能与计算学院的Jie He和华为诺亚方舟实验室的Bo Peng等人。该数据集的核心研究问题是诊断和评估预训练语言模型在文本生成方面的能力,通过对GPT-2模型生成的候选句子进行错误注释,揭示模型在语言学和常识知识方面的错误类型和分布情况。TGEA数据集的创建对相关领域产生了重要影响,它为PLM生成的文本提供了第一个全面注释的数据集,有助于诊断评估PLM在文本生成方面的能力,并为自动错误检测和纠正研究提供了基础。
当前挑战
TGEA数据集的创建和基准任务的提出面临多个挑战。首先,如何构建一个具有广泛错误类型覆盖的数据集是一个挑战,因为不同的预训练语言模型可能产生不同类型的错误。其次,如何确保数据集的质量和一致性也是一个挑战,因为需要大量的人工注释工作,且注释者之间的主观性可能影响数据集的质量。此外,如何设计有效的基准任务来评估模型在自动错误检测和纠正方面的能力也是一个挑战,因为现有的错误检测和纠正模型可能无法很好地适应TGEA数据集的特性。针对这些挑战,研究团队提出了一些解决方案,例如使用多个预训练语言模型生成文本,并采用严格的注释质量控制协议来确保数据集的质量和一致性。此外,研究团队还提出了一系列基准任务,包括错误检测、错误类型分类、关联跨度检测、错误纠正和错误原因生成,以促进自动错误检测和纠正研究的发展。
常用场景
经典使用场景
TGEA数据集主要用于诊断评估预训练语言模型(PLM)在文本生成方面的能力。通过人工标注的文本生成错误,研究者可以深入了解PLM在文本生成任务中的不足,并针对性地进行模型优化。此外,TGEA还提供了丰富的语义信息,包括错误类型、相关文本跨度、错误修正和错误背后的原因,为PLM生成的文本的自动错误检测和纠正提供了数据支持。
实际应用
TGEA数据集在文本生成领域的实际应用场景包括:1. 文本生成模型的诊断评估:通过TGEA数据集,研究者可以评估和诊断预训练语言模型在文本生成任务中的能力,找出模型的不足之处,并针对性地进行模型优化。2. 自动错误检测和修正:TGEA数据集提供了丰富的语义信息,包括错误类型、相关文本跨度、错误修正和错误原因,为开发自动错误检测和修正系统提供了数据支持。3. 文本生成模型的训练:TGEA数据集可以用于训练文本生成模型,提高模型在文本生成任务中的准确性和可靠性。
衍生相关工作
TGEA数据集的提出,推动了文本生成领域的研究。基于TGEA数据集,研究者可以深入研究预训练语言模型在文本生成中的错误模式和原因,并提出更有效的错误检测和修正方法。此外,TGEA数据集还可以用于训练文本生成模型,提高模型在文本生成任务中的准确性和可靠性。这些研究工作有助于推动文本生成技术的发展,为PLM在文本生成领域的应用提供更好的支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作