five

AGB-DE

收藏
github2024-06-12 更新2024-06-13 收录
下载链接:
https://github.com/DaBr01/AGB-DE
下载链接
链接失效反馈
官方服务:
资源简介:
AGB-DE是一个法律自然语言处理语料库,用于自动化检测德语标准形式消费者合同中可能无效的条款。它包含3,764个经过法律专家评估并标注为可能无效(1)或有效(0)的条款。此外,每个条款的主题也已被标注。该仓库包含语料库本身、用于匿名化数据的代码、用于训练和评估基线模型的代码,以及基线评估的结果。

AGB-DE 是一个专门用于法律自然语言处理(Legal NLP)的语料库,旨在自动化检测德语标准形式消费者合同中可能无效的条款。该语料库包含 3,764 个经过法律专家评估并标注为可能无效(1)或有效(0)的条款。此外,每个条款的主题也已进行了标注。该仓库不仅包含语料库本身,还提供了用于数据匿名化的代码、用于训练和评估基线模型的代码,以及基线评估的结果。
创建时间:
2024-05-29
原始信息汇总

数据集概述

数据集名称

AGB-DE: A Corpus for the Automated Legal Assessment of Clauses in German Consumer Contracts

数据集描述

AGB-DE是一个法律自然语言处理(NLP)数据集,用于自动检测德国标准格式消费者合同中可能无效的条款。该数据集包含3,764个条款,这些条款已由专家进行法律评估,并被标注为可能无效(1)或有效(0)。此外,每个条款的主题也已被标注。

数据集内容

  • 条款数量:3,764个
  • 标注类型:有效性(0/1)和主题
  • 主题分布:数据集中展示了各主题的条款数量及其可能无效的条款比例。

数据集使用

数据集可通过Huggingface平台使用,提供了加载数据集和模型的示例代码。

数据集评估

评估模型

  • 模型:包括SVM、BERT、XLM-Roberta、GerPT2、GPT-3.5-turbo-0125等。
  • 评估指标:精度、召回率和F1分数。

评估结果

  • AGB-DE数据集

    • 最佳F1分数:bert-base-german-cased(0.35)
    • 最高精度:gerpt2(0.71)
    • 最高召回率:gpt-3.5-turbo-0125(0.92)
  • AGB-DE-under数据集

    • 最佳F1分数:bert-base-german-cased(0.54)
    • 最高精度:xlm-roberta-base(0.75)
    • 最高召回率:gpt-3.5-turbo-0125(0.92)
搜集汇总
数据集介绍
main_image_url
构建方式
在法律自然语言处理领域,AGB-DE数据集的构建基于对德国消费者合同中条款的自动化法律评估需求。该数据集由3,764个条款组成,这些条款均由法律专家进行评估,并标注为有效(0)或潜在无效(1)。此外,每个条款还附有主题标签。数据集的构建过程包括条款的收集、法律专家的评估与标注,以及最终的数据整理与分类。
使用方法
使用AGB-DE数据集的最简便方式是通过🤗 Huggingface平台提供的数据集和基线模型。用户可以通过加载数据集和模型,使用预定义的分类管道对条款文本进行分类。具体操作包括加载数据集、加载模型、创建分类管道,以及对条款文本进行预测和结果检查。通过这种方式,用户可以快速评估合同条款的有效性,并进行进一步的法律分析与研究。
背景与挑战
背景概述
AGB-DE数据集是由Daniel Braun和Florian Matthes于2024年创建,旨在支持德国消费者合同中条款的自动化法律评估。该数据集包含3,764条经过法律专家评估的条款,标记为有效或可能无效,并附有主题标签。AGB-DE的开发不仅填补了法律自然语言处理领域的空白,还为自动化法律评估提供了宝贵的资源,对法律科技领域产生了深远影响。
当前挑战
AGB-DE数据集在构建过程中面临多项挑战。首先,法律条款的复杂性和多样性使得数据标注和模型训练变得困难。其次,不同主题下的无效条款比例差异显著,如'changes'和'severability'主题下的无效条款比例较高,而'age'和'codeOfConduct'主题下则较低,这增加了模型泛化能力的挑战。此外,现有模型的表现参差不齐,如'gerpt2'在精确度上表现优异,但在召回率上表现不佳,表明在自动化法律评估领域仍需进一步研究和优化。
常用场景
经典使用场景
在法律自然语言处理领域,AGB-DE数据集被广泛用于自动化检测德国消费者合同中可能无效的条款。通过训练机器学习模型,如支持向量机(SVM)、BERT和GPT-3.5等,研究人员能够实现对合同条款的自动分类,区分有效与无效条款。这一应用不仅提高了法律评估的效率,还为法律从业者提供了强有力的辅助工具。
解决学术问题
AGB-DE数据集解决了法律文本自动化分析中的关键问题,即如何准确识别和分类合同条款的有效性。通过提供经过专家评估和标注的3,764条合同条款,该数据集为研究者提供了一个标准化的基准,促进了法律NLP技术的进步。其意义在于推动了法律文本处理技术的实际应用,为法律领域的自动化和智能化提供了坚实的基础。
实际应用
在实际应用中,AGB-DE数据集被用于开发和验证自动化法律评估系统,这些系统能够快速分析大量合同条款,识别潜在的法律风险。例如,律师事务所和法律顾问公司可以利用这些系统来审查和优化消费者合同,确保其符合法律规定。此外,政府部门和监管机构也可以利用该数据集来监控和规范市场中的合同行为。
数据集最近研究
最新研究方向
在法律自然语言处理领域,AGB-DE数据集的最新研究方向主要集中在自动化法律条款评估的精度和效率提升上。随着人工智能技术的快速发展,特别是预训练语言模型如BERT和GPT-3.5的应用,研究者们正致力于开发更精确的模型来识别和评估德国消费者合同中的无效条款。这些研究不仅有助于提高法律评估的自动化水平,还能为法律实践提供更可靠的辅助工具,从而在保护消费者权益方面发挥重要作用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作