five

PE, AbstRCT, CDCP

收藏
github2024-10-07 更新2024-10-08 收录
下载链接:
https://github.com/mohammadoumar/AMwithLLMs
下载链接
链接失效反馈
官方服务:
资源简介:
PE数据集包含说服性文章,AbstRCT数据集包含随机对照试验的摘要,CDCP数据集包含康奈尔电子规则制定语料库。

The PE dataset contains persuasive essays, the AbstRCT dataset includes abstracts of randomized controlled trials, and the CDCP dataset encompasses the Cornell Electronic Rulemaking Corpus.
创建时间:
2024-09-11
原始信息汇总

📣 AMwithLLMs 📣

数据集概述

该项目包含以下数据集的实验材料:

  1. abstRCT: 随机对照试验摘要数据集 (AbstRCT)。
  2. cdcp: 康奈尔电子规则制定语料库 (CDCP)。
  3. mega: 包含所有三个数据集的组合数据集。
  4. pe: 说服性文章数据集 (PE)。

模型

实验中使用的模型包括:

  • LLaMA-3-8B-Instruct
  • LLaMA-3-70B-Instruct
  • LLaMA-3.1-8B-Instruct
  • Gemma-2-9B-it
  • Qwen-2-7B-Instruct
  • Mistral-7B-Instruct
  • Phi-3-mini-instruct

任务

实验涉及以下三个论点挖掘任务:

  1. 论点成分分类 (ACC): 将论点成分分类为主要主张主张前提
  2. 论点关系识别 (ARI): 将论点成分对分类为相关非相关
  3. 论点关系分类 (ARC): 将论点关系分类为支持攻击

依赖包

实验中使用的包及其版本如下:

torch==2.4.0 gradio==4.43.0 pydantic==2.9.0 LLaMA-Factory==0.9.0 transformers==4.44.2 bitsandbytes==0.43.1

平台和计算资源

  • 使用 LLaMA-Factory 进行模型微调。
  • 使用 Unsloth 进行模型检查点管理。
  • 使用 Hugging Face 进行实验。
  • 所有实验在 La Rochelle Université 的高性能集群上进行。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于对预训练大型语言模型(LLMs)的微调,旨在通过任务特定的监督训练来补充通用LLMs的预训练。具体而言,数据集包括三个子集:Persuasive Essays (PE)、Abstracts of Randomized Controlled Trials (AbstRCT) 和 Cornell eRulemaking Corpus (CDCP)。这些子集分别用于实验和模型训练,最终通过组合形成一个综合数据集(MEGA)。微调过程涉及在下游数据集上进一步训练预训练模型,以增强其在特定任务上的表现。
使用方法
使用该数据集时,研究者可以首先选择合适的子集进行实验,如PE、AbstRCT或CDCP,或者直接使用MEGA综合数据集。数据集支持多种模型,如LLaMA-3-8B-Instruct、Gemma-2-9B-it等,研究者可根据需求选择合适的模型进行微调。实验过程中,可利用LLaMA-Factory进行模型微调,并使用Hugging Face平台进行模型部署和验证。此外,数据集还提供了详细的实验环境和依赖包版本,确保实验的可重复性和一致性。
背景与挑战
背景概述
在自然语言处理领域,特别是论证挖掘(Argument Mining)的研究中,PE、AbstRCT和CDCP数据集的创建具有重要意义。这些数据集由La Rochelle Université的研究团队开发,旨在通过微调大型语言模型(LLMs)来提升论证挖掘任务的性能。PE数据集包含了说服性文章,AbstRCT数据集则聚焦于随机对照试验的摘要,而CDCP数据集则来源于Cornell eRulemaking Corpus。这些数据集的创建不仅丰富了论证挖掘领域的资源,还为相关研究提供了宝贵的实验材料。
当前挑战
尽管这些数据集在论证挖掘领域具有重要价值,但在构建和应用过程中仍面临诸多挑战。首先,数据集的多样性和复杂性使得模型训练变得困难,尤其是在处理不同类型的文本时。其次,论证组件分类(ACC)、论证关系识别(ARI)和论证关系分类(ARC)等任务的复杂性要求模型具备高度的语义理解和推理能力。此外,微调大型语言模型所需的计算资源和时间成本也是一大挑战,尤其是在高性能集群上进行实验时。
常用场景
经典使用场景
在自然语言处理领域,PE、AbstRCT和CDCP数据集被广泛应用于细调大型语言模型(LLMs)的论证挖掘任务。这些数据集通过提供高质量的论证文本,使得模型能够在论证组件分类(ACC)、论证关系识别(ARI)和论证关系分类(ARC)等任务上进行精细化的训练。通过这种方式,模型能够更好地理解和生成复杂的论证结构,从而提升其在实际应用中的表现。
解决学术问题
这些数据集解决了自然语言处理中论证挖掘的关键问题,即如何有效地从文本中提取和分类论证组件及其关系。通过提供丰富的论证文本和标注数据,PE、AbstRCT和CDCP数据集为研究者提供了一个标准化的测试平台,促进了论证挖掘技术的进步。这不仅推动了学术界对论证结构理解的深入,也为实际应用中的文本分析和决策支持提供了强有力的工具。
实际应用
在实际应用中,这些数据集支持的论证挖掘技术被广泛应用于法律文书分析、政策制定支持、社交媒体舆情监控等领域。例如,在法律领域,通过分析法律文书中的论证结构,可以辅助律师和法官进行案件分析和判决;在政策制定中,论证挖掘技术可以帮助政府机构更好地理解公众意见和政策影响;在社交媒体监控中,该技术能够识别和分析网络上的争论焦点,为舆情管理提供数据支持。
数据集最近研究
最新研究方向
在自然语言处理领域,特别是论点挖掘(Argument Mining)方面,PE、AbstRCT和CDCP数据集的最新研究主要集中在通过微调大型语言模型(LLMs)来提升论点组件分类、论点关系识别和论点关系分类的性能。这些研究不仅探索了如何将预训练模型应用于特定任务,还通过整合多个数据集(如MEGA数据集)来增强模型的泛化能力。此外,研究者们正在尝试使用多种先进的语言模型,如LLaMA、Gemma和Qwen,以期在论点挖掘任务中取得突破性进展。这些研究不仅推动了论点挖掘技术的发展,也为相关领域的应用提供了新的可能性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作