jerma66/TGEA2.0

Name: jerma66/TGEA2.0
Creator: jerma66
Published: 2023-05-17 12:16:40
License: 暂无描述

Hugging Face2023-05-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/jerma66/TGEA2.0

下载链接

链接失效反馈

官方服务：

资源简介：

为了诊断分析和改进预训练语言模型（PLMs）在文本生成中的能力，我们提出了TGEA 2.0，这是迄今为止最大的基于机器生成文本的数据集，具有广泛的病理生成错误的细粒度语义标注。我们从3个领域的600万自然句子中收集了17万个名词性、短语性和句子性提示，并将这些提示输入到4个生成性PLMs中，使用其最佳解码策略生成段落。从这些生成的段落中提取了195,629个句子进行手动标注，其中检测到36,000个错误句子，定位并分类了42,000个错误跨度，这些错误跨度被分类为两级错误分类法中的错误类型。我们为每个错误跨度定义了最小错误相关词集（MiSEW），不仅提供了错误相关词，还合理化了对错误背后的推理。在整个标注过程之前和期间，进行了预标注和反馈循环的质量控制。通过诊断性标注的数据集，我们提出了5个诊断基准任务（即错误文本检测、MiSEW提取、错误跨度定位和纠正以及错误类型分类）和2个病理缓解基准任务（成对比较和词预测）。这些基准任务的实验结果表明，TGEA 2.0是一个具有挑战性的数据集，可以促进对机器文本的自动诊断和病理缓解的进一步研究。

To diagnose, analyze, and improve the capabilities of pre-trained language models (PLMs) in text generation, we propose TGEA 2.0, the largest machine-generated text dataset to date with extensive fine-grained semantic annotations of pathological generation errors. We collected 170,000 nominal, phrasal, and sentential prompts from 6 million natural sentences across 3 domains, and fed these prompts into 4 generative PLMs using their optimal decoding strategies to generate paragraphs. We extracted 195,629 sentences from these generated paragraphs for manual annotation, detected 36,000 erroneous sentences among them, localized and categorized 42,000 error spans, which were classified into error types under a two-level error taxonomy. We defined the Minimum Error-Span Associated Word set (MiSEW) for each error span, which not only provides error-related words but also rationalizes the reasoning behind the errors. Quality control via pre-annotation and feedback loops was conducted before and throughout the entire annotation process. Leveraging this diagnostically annotated dataset, we propose 5 diagnostic benchmark tasks (i.e., erroneous text detection, MiSEW extraction, error span localization and correction, and error type classification) and 2 pathology mitigation benchmark tasks (pairwise comparison and word prediction). Experimental results on these benchmark tasks demonstrate that TGEA 2.0 is a challenging dataset that can facilitate further research on automatic diagnosis and pathology mitigation of machine-generated text.

提供机构：

jerma66

原始信息汇总

数据集概述

数据集名称

TGEA 2.0

数据集描述

TGEA 2.0是一个用于诊断和改进预训练语言模型（PLMs）文本生成能力的大型数据集。该数据集基于PLMs生成的文本，包含细粒度的语义标注，涵盖广泛的病理生成错误。数据集收集了来自3个领域的600万自然句子中的17万个名义、短语和句子级提示，通过4个生成型PLMs及其最佳解码策略生成段落。从这些生成的段落中提取了195,629个句子进行手动标注，其中检测到36,000个错误句子，定位并分类了42,000个错误片段。数据集定义了每个错误片段的最小错误相关词集（MiSEW），并提出了5个诊断基准任务和2个病理缓解基准任务。

语言

中文

数据集引用

@inproceedings{DBLP:conf/nips/GeZLZ0X22, author = {Huibin Ge and Xiaohu Zhao and Chuang Liu and Yulong Zeng and Qun Liu and Deyi Xiong}, title = {{TGEA} 2.0: {A} Large-Scale Diagnostically Annotated Dataset with Benchmark Tasks for Text Generation of Pretrained Language Models}, booktitle = {NeurIPS}, year = {2022}, url = {http://papers.nips.cc/paper_files/paper/2022/hash/cd556f38dba3a6c367c42fa85fc0801c-Abstract-Datasets_and_Benchmarks.html}, timestamp = {Thu, 11 May 2023 17:08:22 +0200}, biburl = {https://dblp.org/rec/conf/nips/GeZLZ0X22.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

数据分割

分割	数量
训练集	156,502
验证集	19,563
测试集	19,564

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，针对预训练语言模型文本生成能力的诊断性分析需求，TGEA 2.0数据集的构建体现了系统化与精细化的设计理念。该数据集从三个领域的六百万自然语句中，精心筛选出十七万个名词性、短语级及句子级提示，并输入至四种生成式预训练模型，采用最优解码策略生成段落文本。随后，从生成段落中提取出近二十万句子进行人工标注，其中三万六千个错误句子被识别，四万两千个错误片段被定位并归类至两级错误分类体系。每个错误片段均定义了最小错误相关词集，不仅提供错误关联词汇，亦阐明错误背后的推理逻辑。整个标注过程实施了严格的质量控制，包括预标注与反馈循环机制，确保了标注的一致性与可靠性。

特点

TGEA 2.0作为当前规模最大的诊断性标注数据集，其核心特点在于对机器生成文本中广泛病理错误的细粒度语义注释。数据集涵盖了三万六千个错误句子与四万两千个错误片段，并依据两级错误分类学进行系统归类。尤为突出的是，每个错误片段均配备了最小错误相关词集，这一设计不仅精准标识了错误关联词汇，更深入揭示了错误产生的内在逻辑，为模型诊断提供了可解释的推理依据。数据集语言为中文，包含十五万余训练样本及近四万开发与测试样本，结构均衡，适用于多层次评估任务。

使用方法

TGEA 2.0数据集为预训练语言模型的文本生成病理诊断与缓解研究提供了系统化的评估框架。研究者可借助该数据集开展五项诊断性基准任务，包括错误文本检测、最小错误相关词集提取、错误片段定位与纠正以及错误类型分类。此外，数据集还支持两项病理缓解基准任务，即配对比较与词汇预测。使用前，用户需从指定仓库获取数据，并依据论文中的实验设置进行任务划分。数据集的标准化分割与丰富注释为模型能力的细粒度评估与比较奠定了坚实基础，推动自动诊断与病理缓解技术的深入探索。

背景与挑战

背景概述

随着预训练语言模型在文本生成任务中的广泛应用，其生成文本的质量与可靠性成为自然语言处理领域的关键研究议题。TGEA 2.0数据集由天津大学自然语言处理实验室于2022年构建，旨在系统性地诊断和改善预训练语言模型在文本生成过程中出现的病理错误。该数据集基于机器生成的文本，通过精细的语义标注，覆盖了名词性、短语性和句子性提示下的多种错误类型，为模型能力的深入分析提供了大规模、高质量的标注资源。其核心研究问题聚焦于自动错误检测与修正，推动了生成模型可解释性与鲁棒性的研究进展，对自然语言生成领域的评估方法学产生了显著影响。

当前挑战

TGEA 2.0数据集致力于解决预训练语言模型文本生成中病理错误的自动诊断与缓解，其核心挑战在于如何准确识别并分类生成文本中的语义、语法及逻辑错误，这些错误往往隐蔽且多样，对模型的深度理解能力提出了严峻考验。在构建过程中，研究人员面临标注一致性与质量控制难题，需通过预标注与反馈循环确保大规模人工标注的精确度；同时，设计涵盖错误检测、定位、修正及类型分类的多任务基准，要求标注体系既全面又具可操作性，以支撑后续研究的有效性。

常用场景

经典使用场景

在自然语言处理领域，TGEA 2.0数据集为预训练语言模型的文本生成能力提供了精细的诊断工具。该数据集通过收集来自三个领域的170K个提示，利用四种生成式预训练模型生成段落，并从中提取195,629个句子进行人工标注，识别出36K个错误句子和42K个错误跨度。这一过程不仅标注了错误类型，还定义了每个错误跨度的最小错误相关词集，为模型生成文本的病理分析奠定了坚实基础。经典使用场景包括利用其标注数据训练模型进行错误检测、定位和分类，从而系统评估生成文本的语义连贯性与逻辑准确性。

实际应用

在实际应用中，TGEA 2.0数据集可广泛应用于智能写作辅助、内容自动生成及机器翻译质量评估等场景。例如，在新闻摘要或创意写作系统中，利用该数据集训练的模型能够实时检测并修正生成文本中的语义错误，提升输出内容的准确性与流畅度。此外，教育领域的自动作文评分工具也可借鉴其错误分类机制，为学生提供更精准的反馈，从而优化人机协作的文本生成流程，增强实际应用的可靠性与效率。

衍生相关工作

基于TGEA 2.0数据集，研究者已衍生出多项经典工作，主要集中在文本生成错误的自动诊断与病理缓解任务上。例如，相关研究利用该数据集开发了错误文本检测、最小错误相关词提取及错误跨度定位等基准任务，推动了生成式预训练模型的性能优化。这些工作不仅拓展了数据集的适用范围，还催生了新的评估框架，如成对比较和词预测任务，为后续研究提供了丰富的实验基础，促进了自然语言处理领域在生成质量控制方面的持续创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集