joelniklaus/german_argument_mining

Name: joelniklaus/german_argument_mining
Creator: joelniklaus
Published: 2022-09-22 13:44:35
License: 暂无描述

Hugging Face2022-09-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/joelniklaus/german_argument_mining

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个德语法律判决语料库，包含了200个随机选择的判决，并由法律专家对这些判决中的结论、定义和归因等部分进行了标注。数据集主要用于多类文本分类任务，特别是论点挖掘。数据集的创建目的是为了提供一个公开可用的德语法律文本语料库，标注的内容包括德国法律写作风格Urteilsstil的组成部分。数据集的语言为德语，源自巴伐利亚的法院。数据集的创建过程包括从巴伐利亚州的法院网站爬取数据，并由法律专家进行标注。数据集的结构包括元数据文件和句子分类文件，元数据文件包含了每个法院的详细信息，句子分类文件则包含了每个句子的分类标签。数据集被随机分为训练集、验证集和测试集，并提供了每个类别的分布情况。

提供机构：

joelniklaus

原始信息汇总

数据集概述

数据集名称

名称: Annotated German Legal Decision Corpus
别名: 德国法律判决标注语料库

数据集属性

语言: 德语 (de)
许可证: Creative Commons Attribution 4.0 International (cc-by-4.0)
多语言性: 单语种
大小: 10,000 < n < 100,000
来源: 原始数据
任务类别: 文本分类
任务ID: 多类分类

数据集内容

描述: 该数据集包含200个随机选择的判决，由法律专家标注了德国法律写作风格Urteilsstil的组成部分：结论、定义和涵摄。
数据量: 总计25,075个句子被标注，其中5%为结论，21%为定义，53%为涵摄，剩余21%为其他。
数据来源: 来自22个法院，主要来自VG Augsburg、VG Ansbach和LSG Munich。
时间范围: 主要集中在2016年至2019年，无2020年的判决。

数据集结构

数据实例: 每个句子作为json对象存储在train.jsonl, validation.jsonl, 或 test.jsonl文件中。
数据字段: 包括file_number, input_sentence, label, context_before, context_after等。
数据分割: 随机分割为80%训练集，10%验证集，10%测试集。

数据集创建

标注理由: 创建一个公开的德国法律文本语料库，包含由法律专家标注的判决。
源数据: 来自www.gesetze-bayern.de网站的判决，由C.H.BECK处理，包括匿名化、关键词化和添加编辑指南。
标注者: 一位持有法律国家考试第一阶段资格的法律专家。

使用考虑

数据处理: 使用SoMaJo Sentence Splitter，存在部分分割不准确的情况。

附加信息

数据集维护者: Joel Niklaus和Veton Matoshi。
贡献者: @kapllan 和 @joelniklaus。

5,000+

优质数据集

54 个

任务类型

进入经典数据集