joelniklaus/german_argument_mining
收藏Hugging Face2022-09-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joelniklaus/german_argument_mining
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个德语法律判决语料库,包含了200个随机选择的判决,并由法律专家对这些判决中的结论、定义和归因等部分进行了标注。数据集主要用于多类文本分类任务,特别是论点挖掘。数据集的创建目的是为了提供一个公开可用的德语法律文本语料库,标注的内容包括德国法律写作风格Urteilsstil的组成部分。数据集的语言为德语,源自巴伐利亚的法院。数据集的创建过程包括从巴伐利亚州的法院网站爬取数据,并由法律专家进行标注。数据集的结构包括元数据文件和句子分类文件,元数据文件包含了每个法院的详细信息,句子分类文件则包含了每个句子的分类标签。数据集被随机分为训练集、验证集和测试集,并提供了每个类别的分布情况。
提供机构:
joelniklaus
原始信息汇总
数据集概述
数据集名称
- 名称: Annotated German Legal Decision Corpus
- 别名: 德国法律判决标注语料库
数据集属性
- 语言: 德语 (de)
- 许可证: Creative Commons Attribution 4.0 International (cc-by-4.0)
- 多语言性: 单语种
- 大小: 10,000 < n < 100,000
- 来源: 原始数据
- 任务类别: 文本分类
- 任务ID: 多类分类
数据集内容
- 描述: 该数据集包含200个随机选择的判决,由法律专家标注了德国法律写作风格Urteilsstil的组成部分:结论、定义和涵摄。
- 数据量: 总计25,075个句子被标注,其中5%为结论,21%为定义,53%为涵摄,剩余21%为其他。
- 数据来源: 来自22个法院,主要来自VG Augsburg、VG Ansbach和LSG Munich。
- 时间范围: 主要集中在2016年至2019年,无2020年的判决。
数据集结构
- 数据实例: 每个句子作为json对象存储在
train.jsonl,validation.jsonl, 或test.jsonl文件中。 - 数据字段: 包括
file_number,input_sentence,label,context_before,context_after等。 - 数据分割: 随机分割为80%训练集,10%验证集,10%测试集。
数据集创建
- 标注理由: 创建一个公开的德国法律文本语料库,包含由法律专家标注的判决。
- 源数据: 来自www.gesetze-bayern.de网站的判决,由C.H.BECK处理,包括匿名化、关键词化和添加编辑指南。
- 标注者: 一位持有法律国家考试第一阶段资格的法律专家。
使用考虑
- 数据处理: 使用SoMaJo Sentence Splitter,存在部分分割不准确的情况。
附加信息
- 数据集维护者: Joel Niklaus和Veton Matoshi。
- 贡献者: @kapllan 和 @joelniklaus。



