ArGPT

Name: ArGPT
Creator: 圣保罗大学
Published: 2024-06-21 21:27:10
License: 暂无描述

arXiv2024-06-21 更新2024-06-25 收录

下载链接：

https://github.com/C4AI/ArGPT

下载链接

链接失效反馈

官方服务：

资源简介：

ArGPT是由圣保罗大学创建的一个新颖数据集，专注于分析ChatGPT生成的论点质量。该数据集包含168篇经过人工专家标注的辩论性文章，旨在通过模拟学生与教授的互动，生成并分析代表ChatGPT能力的论点。数据集内容涵盖多个领域，如艺术、历史、哲学和科学，每篇文章平均包含380个单词。创建过程中，通过精心设计的提示引导ChatGPT生成具有代表性的论点。ArGPT的应用领域主要集中在自动论点分类、论点挖掘和自动文章评分等任务，旨在解决大型语言模型在生成论点时可能出现的误导性问题，提供一个用于训练和测试相关系统的实用工具。

ArGPT is a novel dataset developed by the University of São Paulo, focusing on analyzing the quality of arguments generated by ChatGPT. This dataset contains 168 argumentative essays manually annotated by human experts, aiming to generate and analyze arguments representative of ChatGPT's capabilities by simulating interactions between students and professors. The dataset covers multiple domains such as art, history, philosophy and science, with each essay averaging 380 words. During its creation, ChatGPT was guided by carefully designed prompts to generate representative arguments. The main application fields of ArGPT focus on tasks including automatic argument classification, argument mining and automatic essay scoring, aiming to address the misleading issues that may occur when large language models generate arguments, and provide a practical tool for training and testing relevant systems.

提供机构：

圣保罗大学

创建时间：

2024-06-21

原始信息汇总

ArGPT: 基于LLM的论证数据集

ArGPT数据集包含一组使用ChatGPT 3.5生成的论证性文章，并进行了以下标注：

论证挖掘：定义为三个不同的子任务，即跨度检测、组件分类和关系分类；
自动作文评分：使用真实世界论证性文章的修正标准；
论证质量：定义为好的文章如果用合理的论证来捍卫一个真实的声明，坏的文章如果论证有缺陷，或者丑的文章如果论证合理，但所支持的声明是错误的。评估标准包括：
- 标准0：明确陈述主要声明；
- 标准1：引入主题；
- 标准2：在文本中展开论证；
- 标准3：在结论中重述论证；
- 标准4：遵守标准语言规范；
- 标准5：正确使用论证连接词；
- 标准6：遵守主题；
- 标准7：不重复论证；
- 标准8：无矛盾；
- 标准9：不绕弯子；
- 标准10：陈述真实或合理的论证。

ArGPT v1:

包含168篇由单个标注者标注的文本。

ArGPT v2:

包含172篇文本，标注结果为两个不同标注者的共识。

搜集汇总

数据集介绍

构建方式

ArGPT数据集的构建采用了一种创新的方法，首先选取多个主题，这些主题旨在诱导ChatGPT产生包含矛盾或错误观点的论证性文章。随后，研究者们向ChatGPT提供了两个提示：首先是让学生角色撰写关于所选主题的论证性文章，然后是让教授角色对学生的文章进行纠正。通过这种方式，研究者们收集了一系列包含良好、糟糕和丑陋论证的文章。最后，所有生成的文章都由人类专家进行了细致的标注，以供进一步的分析和任务训练。

特点

ArGPT数据集的特点在于其多样性和复杂性。它包含了由ChatGPT生成的多种类型的论证性文章，这些文章涵盖了从良好到糟糕再到丑陋的论证质量。此外，数据集中的文章还经过了人类专家的标注，以便于分析论证的结构和质量。这使得ArGPT数据集成为研究和开发能够识别和评估由大型语言模型生成的论证的系统的重要资源。

使用方法

ArGPT数据集的使用方法包括多个任务，这些任务涵盖了从识别论证的个体组成部分到评估其整体结构的整个过程。具体来说，这些任务包括论证质量评估、跨度识别、组成部分分类、关系分类和文章评分。为了评估这些任务，研究者们采用了BERT和RoBERTa等基于Transformer的架构，并建立了相应的基线。这些基线模型可以用于训练和测试能够识别和评估由ChatGPT等大型语言模型生成的论证的系统。

背景与挑战

背景概述

随着大型语言模型（LLM）的成功，人们开始关注这些模型可能传播虚假信息的问题。因此，迫切需要能够识别由这些模型生成的“虚假论点”的工具。为了创建这些工具，需要LLM生成的文本示例。本研究引入了一种从ChatGPT生成的论证性文章中获取良好、坏和丑陋论点的方法。我们描述了一个包含多样论点的数据集ArGPT。我们评估了数据集的有效性，并为几个与论证相关的任务建立了基线。最后，我们表明，人工生成的数据与人类论证密切相关，因此可以作为训练和测试系统以执行定义任务的工具。

当前挑战

该数据集面临的挑战包括：1) 如何识别由LLM生成的“虚假论点”，特别是在现有数据集被LLM污染的情况下；2) 如何构建一个能够代表ChatGPT技能的论点生成方法；3) 如何对生成的论点进行标注，以便能够用于研究LLM的论证行为；4) 如何定义与论证相关的任务，并为这些任务建立基线；5) 如何确保LLM生成的论点与人类生成的论点相似，以便能够用于训练和测试系统。

常用场景

经典使用场景

ArGPT数据集主要用于评估由大型语言模型生成的论点质量，并训练和测试旨在检测和评估这些模型产生的论点的系统。该数据集包含由ChatGPT生成的各种论点，并由人类专家进行了精心标注。这些论点被分为“好”、“坏”和“丑陋”三类，以便研究人员可以训练模型来区分它们。此外，ArGPT数据集还可以用于研究大型语言模型在论点生成方面的行为，并探索它们在自动论文评分和论点挖掘等领域的应用。

衍生相关工作

ArGPT数据集的发布促进了相关研究的发展，包括开发能够检测和评估由大型语言模型生成的论点质量的系统，以及研究这些模型在论点生成方面的行为。此外，ArGPT数据集还可以用于探索自动论文评分和论点挖掘等领域的应用。例如，研究人员可以利用ArGPT数据集来训练和评估模型，以识别和评估由ChatGPT生成的各种论点。此外，ArGPT数据集还可以用于研究大型语言模型在论点生成方面的行为，并探索它们在自动论文评分和论点挖掘等领域的应用。

数据集最近研究