five

sentence-transformers/law-gpt|法律文本处理数据集|法律案例分析数据集

收藏
hugging_face2024-06-19 更新2024-06-22 收录
法律文本处理
法律案例分析
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/law-gpt
下载链接
链接失效反馈
资源简介:
该数据集名为LawGPT,主要用于训练BGE-M3模型。数据集包含三个子集:triplet、triplet-20和triplet-all。每个子集都包含anchor、positive和negative列,数据类型均为字符串。triplet子集包含500个样本,triplet-20子集包含500个样本,每个样本有20个negative示例,triplet-all子集包含10000个样本。数据集的内容主要涉及法律相关的仲裁条款和纠纷解决,通过提供法律条文和案例来解释仲裁协议的有效性等问题。数据集的收集策略是从Shitao/bge-m3-data中的LawGPT jsonl文件中提取数据,并根据不同的子集需求进行格式化。

该数据集名为LawGPT,主要用于训练BGE-M3模型。数据集包含三个子集:triplet、triplet-20和triplet-all。每个子集都包含anchor、positive和negative列,数据类型均为字符串。triplet子集包含500个样本,triplet-20子集包含500个样本,每个样本有20个negative示例,triplet-all子集包含10000个样本。数据集的内容主要涉及法律相关的仲裁条款和纠纷解决,通过提供法律条文和案例来解释仲裁协议的有效性等问题。数据集的收集策略是从Shitao/bge-m3-data中的LawGPT jsonl文件中提取数据,并根据不同的子集需求进行格式化。
提供机构:
sentence-transformers
原始信息汇总

数据集概述

数据集基本信息

  • 语言: 中文
  • 多语言性: 单语种
  • 数据量: 1K < n < 10K
  • 任务类别: 特征提取、句子相似度
  • 数据集名称: LawGPT
  • 标签: sentence-transformers

数据集配置信息

triplet 子集

  • 特征:
    • anchor: 字符串
    • positive: 字符串
    • negative: 字符串
  • 分割:
    • train: 1726020 字节, 500 个样本
  • 下载大小: 716058 字节
  • 数据集大小: 1726020 字节

triplet-20 子集

  • 特征:
    • anchor: 字符串
    • positive: 字符串
    • negative_1negative_20: 字符串
  • 分割:
    • train: 17135477 字节, 500 个样本
  • 下载大小: 6881015 字节
  • 数据集大小: 17135477 字节

triplet-all 子集

  • 特征:
    • anchor: 字符串
    • positive: 字符串
    • negative: 字符串
  • 分割:
    • train: 34411037 字节, 10000 个样本
  • 下载大小: 5469596 字节
  • 数据集大小: 34411037 字节

数据集配置文件

  • triplet 配置:
    • 数据文件路径: triplet/train-*
  • triplet-20 配置:
    • 数据文件路径: triplet-20/train-*
  • triplet-all 配置:
    • 数据文件路径: triplet-all/train-*

数据集子集详情

triplet 子集

  • : "anchor", "positive", "negative"
  • 列类型: str, str, str
  • 示例: python { anchor: 甲公司与乙公司签订了合同,其中包含仲裁条款,并选定了中国仲裁协会作为仲裁机构。当纠纷发生后,甲公司请求仲裁解决,但乙公司却表示仲裁协议无效,认为纠纷超出了法律规定的仲裁范围。这种情况下,仲裁协议是否有效?, positive: (参考诉讼与非诉讼程序法-仲裁法2017-09-01:第十七条(一))

根据《诉讼与非诉讼程序法-仲裁法2017-09-01》第十七条(一)规定,如果约定的仲裁事项超出了法律规定的仲裁范围,仲裁协议将会无效。因此,乙公司不能简单认为仲裁协议无效,而需要解释和证明合同纠纷是否超出了法律规定的仲裁范围。 诉讼与非诉讼程序法-仲裁法2017-09-01: "中国仲裁协会依照本法和民事诉讼法的有关规定制定仲裁规则。", 诉讼与非诉讼程序法-仲裁法2017-09-01: "第十六条 仲裁协议包括合同中订立的仲裁条款和以其他书面方式在纠纷发生前或者纠纷发生后达成的请求仲裁的协议。", 诉讼与非诉讼程序法-仲裁法2017-09-01: "仲裁协议应当具有下列内容:", 诉讼与非诉讼程序法-仲裁法2017-09-01: "(一)请求仲裁的意思表示;", 诉讼与非诉讼程序法-仲裁法2017-09-01: "(二)仲裁事项;", 诉讼与非诉讼程序法-仲裁法2017-09-01: "(三)选定的仲裁委员会。", 诉讼与非诉讼程序法-仲裁法2017-09-01: "第十七条 有下列情形之一的,仲裁协议无效:", 诉讼与非诉讼程序法-仲裁法2017-09-01: "(一)约定的仲裁事项超出法律规定的仲裁范围的;", , negative: 根据《民事诉讼法》相关规定,对依法设立的仲裁机构的裁决,一方当事人不履行的,对方当事人可以向有管辖权的人民法院申请执行。受申请的人民法院应当执行。被申请人提出证据证明仲裁裁决不应该执行的,经人民法院组成合议庭审查核实,可以裁定不予执行。但是,如果当事人在合同中没有订有仲裁条款或者事后没有达成书面仲裁协议,或者裁决的事项不属于仲裁协议的范围或者仲裁机构无权仲裁的,裁定依然应当执行。因此,在本案中,甲方可以向有管辖权的人民法院申请执行仲裁机构的裁决,乙方应当履行该裁决书。 诉讼与非诉讼程序法-民事诉讼法2021-12-24: "调解书和其他应当由人民法院执行的法律文书,当事人必须履行。一方拒绝履行的,对方当事人可以向人民法院申请执行。", 诉讼与非诉讼程序法-民事诉讼法2021-12-24: "第二百四十四条 对依法设立的仲裁机构的裁决,一方当事人不履行的,对方当事人可以向有管辖权的人民法院申请执行。受申请的人民法院应当执行。", 诉讼与非诉讼程序法-民事诉讼法2021-12-24: "被申请人提出证据证明仲裁裁决有下列情形之一的,经人民法院组成合议庭审查核实,裁定不予执行:", 诉讼与非诉讼程序法-民事诉讼法2021-12-24: "(一)当事人在合同中没有订有仲裁条款或者事后没有达成书面仲裁协议的;", 诉讼与非诉讼程序法-民事诉讼法2021-12-24: "(二)裁决的事项不属于仲裁协议的范围或者仲裁机构无权仲裁的;",

}
  • 收集策略: 从 Shitao/bge-m3-data 读取 LawGPT jsonl 文件,仅取第一个 positive 和第一个 negative。
  • 去重: 否

triplet-20 子集

  • : "anchor", "positive", "negative_1", ..., "negative_20"
  • 列类型: str, ..., str
  • 示例: python { anchor: 甲公司与乙公司签订了合同,其中包含仲裁条款,并选定了中国仲裁协会作为仲裁机构。当纠纷发生后,甲公司请求仲裁解决,但乙公司却表示仲裁协议无效,认为纠纷超出了法律规定的仲裁范围。这种情况下,仲裁协议是否有效?, positive: (参考诉讼与非诉讼程序法-仲裁法2017-09-01:第十七条(一))

根据《诉讼与非诉讼程序法-仲裁法2017-09-01》第十七条(一)规定,如果约定的仲裁事项超出了法律规定的仲裁范围,仲裁协议将会无效。因此,乙公司不能简单认为仲裁协议无效,而需要解释和证明合同纠纷是否超出了法律规定的仲裁范围。 诉讼与非诉讼程序法-仲裁法2017-09-01: "中国仲裁协会依照本法和民事诉讼法的有关规定制定仲裁规则。", 诉讼与非诉讼程序法-仲裁法2017-09-01: "第十六条 仲裁协议包括合同中订立的仲裁条款和以其他书面方式在纠纷发生前或者纠纷发生后达成的请求仲裁的协议。", 诉讼与非诉讼程序法-仲裁法2017-09-01: "仲裁协议应当具有下列内容:", 诉讼与非诉讼程序法-仲裁法2017-09-01: "(一)请求仲裁的意思表示;", 诉讼与非诉讼程序法-仲裁法2017-09-01: "(二)仲裁事项;", 诉讼与非诉讼程序法-仲裁法2017-09-01: "(三)选定的仲裁委员会。", 诉讼与非诉讼程序法-仲裁法2017-09-01: "第十七条 有下列情形之一的,仲裁协议无效:", 诉讼与非诉讼程序法-仲裁法2017-09-01: "(一)约定的仲裁事项超出法律规定的仲裁范围的;", , negative_1: 根据《民事诉讼法》相关规定,对依法设立的仲裁机构的裁决,一方当事人不履行的,对方当事人可以向有管辖权的人民法院申请执行。受申请的人民法院应当执行。被申请人提出证据证明仲裁裁决不应该执行的,经人民法院组成合议庭审查核实,可以裁定不予执行。但是,如果当事人在合同中没有订有仲裁条款或者事后没有达成书面仲裁协议,或者裁决的事项不属于仲裁协议的范围或者仲裁机构无权仲裁的,裁定依然应当执行。因此,在本案中,甲方可以向有管辖权的人民法院申请执行仲裁机构的裁决,乙方应当履行该裁决书。 诉讼与非诉讼程序法-民事诉讼法2021-12-24: "调解书和其他应当由人民法院执行的法律文书,当事人必须履行。一方拒绝履行的,对方当事人可以向人民法院申请执行。", 诉讼与非诉讼程序法-民事诉讼法2021-12-24: "第二百四十四条 对依法设立的仲裁机构的裁决,一方当事人不履行的,对方当事人可以向有管辖权的人民法院申请执行。受申请的人民法院应当执行。", 诉讼与非诉讼程序法-民事诉讼法2021-12-24: "被申请人提出证据证明仲裁裁决有下列情形之一的,经人民法院组成合议庭审查核实,裁定不予执行:", 诉讼与非诉讼程序法-民事诉讼法2021-12-24: "(一)当事人在合同中没有订有仲裁条款或者事后没有达成书面仲裁协议的;", 诉讼与非诉讼程序法-民事诉讼法2021-12-24: "(二)裁决的事项不属于仲裁协议的范围或者仲裁机构无权仲裁的;", , negative_2: 根据《诉讼与非诉讼程序法-仲裁法》第四条规定,当事人采用仲裁方式解决纠纷,应当双方自愿,达成仲裁协议。如果没有仲裁协议,一方申请仲裁的,仲裁委员会不予受理。因此,小明和小红需要自愿达成仲裁协议才能进行仲裁。如果一方不同意,仲裁委员会将不予受理。此外,根据《诉讼与非诉讼程序法-仲裁法》第五条规定,如果当事人已经达成仲裁协议,一方向人民法院起诉的,人民法院不予受理,但仲裁协议无效的除外。 诉讼与非诉讼程序法-仲裁法2017-09-01: "(一)婚姻、收养、监护、扶养、继承纠纷;", 诉讼与非诉讼程序法-仲裁法2017-09-01: "(二)依法应当由行政机关处理的行政争议。", 诉讼与非诉讼程序法-仲裁法2017-09-01: "第四条 当事人采用仲裁方式解决纠纷,应当双方自愿,达成仲裁协议。没有仲裁协议,一方申请仲裁的,仲裁委员会不予受理。", 诉讼与非诉讼程序法-仲裁法2017-09-01: "第五条 当事人达成仲裁协议,一方向人民法院起诉的,人民法院不予受理,但仲裁协议无效的除外。", 诉讼与非诉讼程序法-仲裁法2017-09-01: "第六条 仲裁委员会应当由当事人协议选定。", 诉讼与非诉讼程序法-仲裁法2017-09-01: "仲裁不实行级别管辖和地域管辖。", 诉讼与非诉讼程序法-仲裁法2017-09-01: "第七条 仲裁应当根据事实,符合法律规定,公平合理地解决纠纷。", , negative_3: 甲方的主张符合《民事诉讼法》第281条中规定的:当事人在合同中没有订有仲裁条款或者事后没有达成书面仲裁协议的,可以向人民法院提起诉讼。同时,根据《民事诉讼法》第280条的规定,被申请人没有得到指定仲裁员或者进行仲裁程序的通知,或者由于其他不属于被申请人负责的原因未能陈述意见的情形,可以作为诉讼请求的理由。因此甲方的主张符合相关法律规定。 诉讼与非诉讼程序法-民事诉讼法2021-12-24: "(一)当事人在合同中没有订有仲裁条款或者事后没有达成书面仲裁协议的;", 诉讼与非诉讼程序法-民事诉讼法2021-12-24: "(二)被申请人没有得到指定仲裁员或者进行仲裁程序的通知,或者由于其他不属于被申请人负责的原因未能陈述意见的;", 诉讼与非诉讼程序法-民事诉讼法2021-12-24: "(三)仲裁庭的组成或者仲裁的程序与仲裁规则不符的;", 诉讼与非诉讼程序法-民事诉讼法2021-12-24: "(四)裁决的事项不属于仲裁协议的范围或者仲裁机构无权仲裁的。", 诉讼与非诉讼程序法-民事诉讼法2021-12-24: "人民法院认定执行该裁决违背社会公共利益的,裁定不予执行。", 诉讼与非诉讼程序法-民事诉讼法2021-12-24: "第二百八十二条 仲裁裁决被人民法院裁定不予执行的,当事人可以根据双方达成的书面仲裁协议重新申请仲裁,也可以向人民法院起诉。", , negative_4: 根据《诉讼与非诉讼程序法-仲裁法》第七十二条规定,当事人请求执行涉外仲裁委员会作出的发生法律效力的仲裁裁决,如果被执行人或者其财产不在中华人民共和国领域内,应当由当事人直接向有管辖权的外国法院申请承认和执行。 诉讼与非诉讼程序法-仲裁法2017-09-01: "第七十一条 被申请人提出证据证明涉外仲裁裁决有民事诉讼法第二百五十八条第一款规定的情形之一的,经人民法院组成合议庭审查核实,裁定不予执行。", 诉讼与非诉讼程序法-仲裁法2017-09-01: "第七十二条 涉外仲裁委员会作出的发生法律效力的仲裁裁决,当事人请求执行的,如果被执行人或者其财产不在中华人民共和国领域内,应当由当事人直接向有管辖权的外国法院申请承认和执行。", 诉讼与非诉讼程序法-仲裁法2017-09-01: "第七十三条 涉外仲裁规则可以由中国国际商会依照本法和民事诉讼法的有关规定制定。", 诉讼与非诉讼程序法-仲裁法2017-09-01: "第七十四条 法律对仲裁时效有规定的,适用该规定。法律对仲裁时效没有规定的,适用诉讼时效的规定。", 诉讼与非诉讼程序法-仲裁法2017-09-01: "第七十五条 中国仲裁协会制定仲裁规则前,仲裁委员会依照本法和民事诉讼法的有关规定可以制定仲裁暂行规则。", , negative_5: 根据《诉讼与非诉讼程序法-仲裁法》第五条规定,当事人达成仲裁协议后,一方向人民法院起诉的,人民法院不予受理,但仲裁协议无效的除外。因此,在小王和小李签订仲裁协议的前提下,若小王仍选择向人民法院起诉,则法院将不予受理。另外,根据该法第七条规定,仲裁应当根据事实,符合法律规定,公平合理地解决纠纷,如果双方无法协商解决,则可以选择仲裁解决本次租赁纠纷。 诉讼与非诉讼程序法-仲裁法2017-09-01: "第五条 当事人达成仲裁协议,一方向人民法院起诉的,人民法院不予受理,但仲裁协议无效的除外。", 诉讼与非诉讼程序法-仲裁法2017-09-01: "第六条 仲裁委员会应当由当事人协议选定。", 诉讼与非诉讼程序法-仲裁法2017-09-01: "仲裁不实行级别管辖和地域管辖。", 诉讼与非诉讼程序法-仲裁法2017-09-01: "第七条 仲裁应当根据事实,符合法律规定,公平合理地解决纠纷。", 诉讼与非诉讼程序法-仲裁法2017-09-01: "第八条 仲裁依法独立进行,不受行政机关、社会团体和个人的干涉。", 诉讼与非诉讼程序法-仲裁法2017-09-01: "第九条 仲裁实行一裁终局的制度。裁决作出后,当事人就同一纠纷再申请仲裁或者向人民法院起诉的,仲裁委员会或者人民法院不予受理。", , negative_6: 根据《诉讼与非诉讼程序法-仲裁

AI搜集汇总
数据集介绍
main_image_url
构建方式
LawGPT数据集的构建基于对法律文本的深度解析与重组。该数据集从Shitao/bge-m3-data中提取法律相关的jsonl文件,通过特定的收集策略,形成包含'anchor'、'positive'和'negative'等字段的子集。每个子集的构建均遵循严格的法律文本处理流程,确保数据的准确性与一致性。
特点
LawGPT数据集的显著特点在于其专注于法律领域的文本处理,特别是仲裁和民事诉讼的相关内容。数据集包含多个子集,每个子集都设计有不同的特征结构,如'triplet'子集包含三个字段,而'triplet-20'子集则扩展至20个负例字段,这种设计增强了数据集的多样性和复杂性。
使用方法
LawGPT数据集适用于多种自然语言处理任务,如特征提取和句子相似度计算。用户可以通过HuggingFace平台访问该数据集,并根据具体需求选择合适的子集进行模型训练或评估。使用时,建议结合法律领域的专业知识,以确保模型输出的准确性和适用性。
背景与挑战
背景概述
LawGPT数据集是由Shitao等人创建的,旨在支持法律领域的自然语言处理任务,特别是句子相似性和特征提取。该数据集的核心研究问题是如何有效地处理和理解法律文本中的复杂语义关系,这对于法律智能系统的发展至关重要。LawGPT的创建不仅推动了法律信息检索和自动化法律分析的研究,还为法律科技领域提供了宝贵的资源。
当前挑战
LawGPT数据集在构建过程中面临的主要挑战包括法律文本的复杂性和多样性,这要求模型具备高度的语义理解和推理能力。此外,数据集的规模相对较小,仅包含1K到10K个样本,这可能限制了模型的泛化能力。另一个挑战是如何确保数据集中的法律解释和案例分析的准确性,以避免误导模型训练。
常用场景
经典使用场景
LawGPT数据集的经典使用场景主要集中在法律文本的特征提取和句子相似度计算。通过构建三元组(anchor, positive, negative),模型能够学习到法律文本中的语义关系,从而在法律文书的自动生成、法律咨询的智能问答以及法律判决的预测等任务中发挥重要作用。
解决学术问题
LawGPT数据集解决了法律文本处理中的关键学术问题,如法律文本的语义理解和相似度计算。通过提供丰富的法律文本三元组,该数据集有助于训练出更精确的法律文本处理模型,从而提升法律领域的自然语言处理技术水平,为法律研究和实践提供有力支持。
衍生相关工作
基于LawGPT数据集,研究者们开发了多种法律文本处理模型,如BGE-M3模型,该模型在法律文本的特征提取和句子相似度计算方面表现优异。此外,LawGPT还激发了法律领域自然语言处理的研究热潮,推动了法律文本理解和生成技术的发展,为法律科技的创新提供了坚实的基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录

NASA Exoplanet Archive

Exoplanets specifies Confirmed Planets.

kaggle 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录