five

lavis-nlp/german_legal_sentences

收藏
Hugging Face2022-10-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lavis-nlp/german_legal_sentences
下载链接
链接失效反馈
官方服务:
资源简介:
德国法律句子(GLS)数据集是一个自动生成的训练数据集,用于德语法律文档中的语义句子匹配和引用推荐。该数据集遵循弱监督概念,使用多种启发式方法生成不完美的标签。数据集中的句子和引用是从[Open Legal Data](http://openlegaldata.io/)提供的真实司法裁决中解析出来的。主要支持的任务是语义相似性排名,并提供了一系列基准方法的性能指标。
提供机构:
lavis-nlp
原始信息汇总

数据集概述

数据集描述

数据集总结

德国法律句子(GLS)是一个自动生成的训练数据集,用于德语法律文档中的语义句子匹配和引用推荐。该数据集遵循弱监督的概念,使用法律引用匹配和BM25相似性等多种启发式方法生成不完美的标签。数据集中的句子和引用是从Open Legal Data提供的实际司法决定中解析得到的。

支持的任务和排行榜

主要任务是语义相似性排序,使用平均倒数排名(MRR)、MAP和召回率作为评估指标。提供了几种基线方法的性能比较。

语言

该数据集包含来自德国法院决定领域的文本。

数据集结构

数据实例

数据集中的每个实例包含查询文档的ID、引用ID、句子ID和文本,以及相关文档的相应信息。

数据字段

[更多信息待补充]

数据分割

[更多信息待补充]

数据集创建

源数据

初始数据收集和规范化

数据来源于Open Legal Data,经过预处理和规范化,使用手工制作的正则表达式解析法律引用,并进行标准化处理。

源语言生产者

源语言来自德国法院诉讼的上下文。

注释

注释过程

注释是机器生成的。

注释者

注释由机器完成。

个人和敏感信息

源文档已公开并匿名化。

使用数据的考虑因素

数据集的社会影响

该数据集旨在通过加速语义搜索技术的研究,提高法院决定对公众的可访问性。

偏见讨论

[更多信息待补充]

其他已知限制

[更多信息待补充]

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作