five

AMELIA

收藏
arXiv2025-08-25 更新2025-11-25 收录
下载链接:
https://github.com/brunoyun/amelia
下载链接
链接失效反馈
官方服务:
资源简介:
AMELIA是一个由多个任务组成的端到端语言模型,旨在进行论证挖掘。该数据集由19个著名的论证挖掘数据集转换而来,统一格式后可用于训练大型语言模型。数据集包含多个任务,如论证组件识别、关系分类、立场检测等。数据集创建过程包括数据收集、转换和标准化。该数据集旨在解决论证挖掘中的多任务问题,并提高大型语言模型在相关任务上的性能。
提供机构:
法国里昂第一大学、法国国家科学研究中心、里昂中央理工学院、里昂高等应用物理学院、里昂光之城大学、里昂大学信息与系统实验室、法国国家信息与自动化研究所
创建时间:
2025-08-25
搜集汇总
数据集介绍
main_image_url
构建方式
在论证挖掘领域,AMELIA数据集的构建采用了系统化的整合策略。研究团队通过对19个经典论证挖掘数据集进行深度调研与标准化转换,构建了统一的多任务数据集。这些原始数据集覆盖了医疗、政治、法律等多个专业领域,包含从微观文本到长篇论述的多样化论证材料。通过精心设计的抽样机制,确保了每个任务类别中实例数量的均衡分布,同时保留了原始数据集的贡献比例,最终形成了包含4000个训练样本及800个验证测试样本的高质量数据集。
特点
AMELIA数据集展现出显著的多维度特征。其核心优势在于任务覆盖的全面性,囊括了论证组件分类、主张检测、证据识别、关系分类等八大核心任务,形成了完整的论证分析体系。数据集采用统一的JSON格式进行标准化处理,消除了多格式解析的复杂性。特别值得注意的是,该数据集基于真实人工标注的论证数据构建,相较于依赖合成数据的模型,在现实场景中具有更强的泛化能力。数据来源的多样性和任务设计的系统性使其成为论证挖掘领域的重要基准资源。
使用方法
该数据集的使用遵循严谨的实验范式。研究人员可采用Llama-3.1-8B-Instruct等大型语言模型作为基础架构,通过低秩自适应技术进行参数高效微调。针对不同任务设计了标准化的提示模板,确保模型输出的规范性和可比性。使用过程中支持三种主要模式:单任务专门化训练可最大化特定任务性能;多任务联合训练能够实现知识迁移;模型融合策略则提供了计算效率与性能的平衡方案。这种灵活的使用框架使得研究者能够根据具体需求选择最适合的方法论路径。
背景与挑战
背景概述
论证挖掘作为自然语言处理的重要分支,致力于从文本中自动识别和提取论证结构及其关系。AMELIA数据集由法国里昂第一大学的研究团队于2025年创建,核心目标在于探索单一大型语言模型执行多任务论证挖掘的潜力。该研究整合了19个经典论证挖掘数据集,构建了统一格式的多任务语料库,显著提升了模型在论证组件分类、证据检测等任务上的泛化能力,为计算论证领域提供了标准化评估基准。
当前挑战
论证挖掘领域面临双重挑战:在任务层面,需解决论证结构动态性带来的关系分类模糊性,以及跨领域文本中论证质量评估的主观性差异;在数据构建层面,原始数据集格式异构性导致统一化处理困难,且多任务采样需平衡类别分布与数据贡献比例,确保模型训练时既能覆盖多样论证模式,又能维持任务间知识迁移的有效性。
常用场景
经典使用场景
在计算论辩学领域,AMELIA数据集通过整合19个经典论辩挖掘数据集,构建了统一格式的多任务训练资源。该数据集最经典的应用场景是支持大型语言模型在论辩挖掘任务上的系统评估与性能优化,研究者可利用其标准化的输入输出格式,对模型在论辩成分识别、关系分类等核心任务上的表现进行基准测试。这种统一框架显著降低了不同数据集格式差异带来的实验复杂性,为论辩挖掘领域的模型比较提供了可靠基础。
解决学术问题
AMELIA数据集有效解决了论辩挖掘领域长期存在的任务碎片化问题。通过将论辩成分分类、证据检测、谬误识别等八个核心任务整合到统一框架中,该数据集支持跨任务的知识迁移研究,验证了多任务学习在论辩理解中的可行性。其实验结果表明,单一模型经过适当训练后能够同时处理多个论辩任务,且性能无明显衰减,这为构建端到端的论辩分析系统提供了理论依据和方法支撑。
衍生相关工作
基于AMELIA数据集衍生的经典工作包括多任务论辩挖掘框架的优化研究、模型融合技术的创新应用,以及低资源环境下论辩理解方法的探索。研究者通过该数据集开发的DELLA模型融合方法,在保持各任务性能的同时显著降低了计算成本。后续工作进一步扩展了该数据集的适用场景,开发出面向特定领域的论辩分析工具,并在论辩质量自动评估、跨语言论辩挖掘等方向取得了突破性进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作