lavis-nlp/german_legal_sentences

Name: lavis-nlp/german_legal_sentences
Creator: lavis-nlp
Published: 2022-10-20 18:34:19
License: 暂无描述

Hugging Face2022-10-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/lavis-nlp/german_legal_sentences

下载链接

链接失效反馈

官方服务：

资源简介：

德国法律句子（GLS）数据集是一个自动生成的训练数据集，用于德语法律文档中的语义句子匹配和引用推荐。该数据集遵循弱监督概念，使用多种启发式方法生成不完美的标签。数据集中的句子和引用是从[Open Legal Data](http://openlegaldata.io/)提供的真实司法裁决中解析出来的。主要支持的任务是语义相似性排名，并提供了一系列基准方法的性能指标。

提供机构：

lavis-nlp

原始信息汇总

数据集概述

数据集描述

数据集总结

德国法律句子（GLS）是一个自动生成的训练数据集，用于德语法律文档中的语义句子匹配和引用推荐。该数据集遵循弱监督的概念，使用法律引用匹配和BM25相似性等多种启发式方法生成不完美的标签。数据集中的句子和引用是从Open Legal Data提供的实际司法决定中解析得到的。

支持的任务和排行榜

主要任务是语义相似性排序，使用平均倒数排名（MRR）、MAP和召回率作为评估指标。提供了几种基线方法的性能比较。

语言

该数据集包含来自德国法院决定领域的文本。

数据集结构

数据实例

数据集中的每个实例包含查询文档的ID、引用ID、句子ID和文本，以及相关文档的相应信息。

数据字段

[更多信息待补充]

数据分割

[更多信息待补充]

数据集创建

源数据

初始数据收集和规范化

数据来源于Open Legal Data，经过预处理和规范化，使用手工制作的正则表达式解析法律引用，并进行标准化处理。

源语言生产者

源语言来自德国法院诉讼的上下文。

注释

注释过程

注释是机器生成的。

注释者

注释由机器完成。

个人和敏感信息

源文档已公开并匿名化。

使用数据的考虑因素

数据集的社会影响

该数据集旨在通过加速语义搜索技术的研究，提高法院决定对公众的可访问性。

偏见讨论

[更多信息待补充]

其他已知限制

[更多信息待补充]

5,000+

优质数据集

54 个

任务类型

进入经典数据集