PE, AbstRCT, CDCP

github2024-10-07 更新2024-10-08 收录

下载链接：

https://github.com/mohammadoumar/AMwithLLMs

下载链接

链接失效反馈

官方服务：

资源简介：

PE数据集包含说服性文章，AbstRCT数据集包含随机对照试验的摘要，CDCP数据集包含康奈尔电子规则制定语料库。

The PE dataset contains persuasive essays, the AbstRCT dataset includes abstracts of randomized controlled trials, and the CDCP dataset encompasses the Cornell Electronic Rulemaking Corpus.

创建时间：

2024-09-11

原始信息汇总

📣 AMwithLLMs 📣

数据集概述

该项目包含以下数据集的实验材料：

abstRCT: 随机对照试验摘要数据集 (AbstRCT)。
cdcp: 康奈尔电子规则制定语料库 (CDCP)。
mega: 包含所有三个数据集的组合数据集。
pe: 说服性文章数据集 (PE)。

模型

实验中使用的模型包括：

LLaMA-3-8B-Instruct
LLaMA-3-70B-Instruct
LLaMA-3.1-8B-Instruct
Gemma-2-9B-it
Qwen-2-7B-Instruct
Mistral-7B-Instruct
Phi-3-mini-instruct

任务

实验涉及以下三个论点挖掘任务：

论点成分分类 (ACC): 将论点成分分类为主要主张、主张或前提。
论点关系识别 (ARI): 将论点成分对分类为相关或非相关。
论点关系分类 (ARC): 将论点关系分类为支持或攻击。

依赖包

实验中使用的包及其版本如下：

torch==2.4.0 gradio==4.43.0 pydantic==2.9.0 LLaMA-Factory==0.9.0 transformers==4.44.2 bitsandbytes==0.43.1

平台和计算资源

使用 LLaMA-Factory 进行模型微调。
使用 Unsloth 进行模型检查点管理。
使用 Hugging Face 进行实验。
所有实验在 La Rochelle Université 的高性能集群上进行。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于对预训练大型语言模型（LLMs）的微调，旨在通过任务特定的监督训练来补充通用LLMs的预训练。具体而言，数据集包括三个子集：Persuasive Essays (PE)、Abstracts of Randomized Controlled Trials (AbstRCT) 和 Cornell eRulemaking Corpus (CDCP)。这些子集分别用于实验和模型训练，最终通过组合形成一个综合数据集（MEGA）。微调过程涉及在下游数据集上进一步训练预训练模型，以增强其在特定任务上的表现。

使用方法

使用该数据集时，研究者可以首先选择合适的子集进行实验，如PE、AbstRCT或CDCP，或者直接使用MEGA综合数据集。数据集支持多种模型，如LLaMA-3-8B-Instruct、Gemma-2-9B-it等，研究者可根据需求选择合适的模型进行微调。实验过程中，可利用LLaMA-Factory进行模型微调，并使用Hugging Face平台进行模型部署和验证。此外，数据集还提供了详细的实验环境和依赖包版本，确保实验的可重复性和一致性。

背景与挑战

背景概述

在自然语言处理领域，特别是论证挖掘（Argument Mining）的研究中，PE、AbstRCT和CDCP数据集的创建具有重要意义。这些数据集由La Rochelle Université的研究团队开发，旨在通过微调大型语言模型（LLMs）来提升论证挖掘任务的性能。PE数据集包含了说服性文章，AbstRCT数据集则聚焦于随机对照试验的摘要，而CDCP数据集则来源于Cornell eRulemaking Corpus。这些数据集的创建不仅丰富了论证挖掘领域的资源，还为相关研究提供了宝贵的实验材料。

当前挑战

尽管这些数据集在论证挖掘领域具有重要价值，但在构建和应用过程中仍面临诸多挑战。首先，数据集的多样性和复杂性使得模型训练变得困难，尤其是在处理不同类型的文本时。其次，论证组件分类（ACC）、论证关系识别（ARI）和论证关系分类（ARC）等任务的复杂性要求模型具备高度的语义理解和推理能力。此外，微调大型语言模型所需的计算资源和时间成本也是一大挑战，尤其是在高性能集群上进行实验时。

常用场景

经典使用场景

在自然语言处理领域，PE、AbstRCT和CDCP数据集被广泛应用于细调大型语言模型（LLMs）的论证挖掘任务。这些数据集通过提供高质量的论证文本，使得模型能够在论证组件分类（ACC）、论证关系识别（ARI）和论证关系分类（ARC）等任务上进行精细化的训练。通过这种方式，模型能够更好地理解和生成复杂的论证结构，从而提升其在实际应用中的表现。

解决学术问题

这些数据集解决了自然语言处理中论证挖掘的关键问题，即如何有效地从文本中提取和分类论证组件及其关系。通过提供丰富的论证文本和标注数据，PE、AbstRCT和CDCP数据集为研究者提供了一个标准化的测试平台，促进了论证挖掘技术的进步。这不仅推动了学术界对论证结构理解的深入，也为实际应用中的文本分析和决策支持提供了强有力的工具。

实际应用

在实际应用中，这些数据集支持的论证挖掘技术被广泛应用于法律文书分析、政策制定支持、社交媒体舆情监控等领域。例如，在法律领域，通过分析法律文书中的论证结构，可以辅助律师和法官进行案件分析和判决；在政策制定中，论证挖掘技术可以帮助政府机构更好地理解公众意见和政策影响；在社交媒体监控中，该技术能够识别和分析网络上的争论焦点，为舆情管理提供数据支持。

数据集最近研究