five

LegalBench|法律推理数据集数据集|模型评估数据集

收藏
arXiv2022-09-14 更新2024-06-21 收录
法律推理数据集
模型评估
下载链接:
https://github.com/HazyResearch/legalbench
下载链接
链接失效反馈
资源简介:
LegalBench是由斯坦福法学院和斯坦福计算机科学联合创建的法律推理基准数据集,旨在评估基础模型在法律推理任务中的表现。该数据集包含44个任务,覆盖法律领域的多个方面,如合同分析、司法管辖权判断等。数据集的创建过程遵循IRAC框架,确保任务设计符合法律推理的实际需求。LegalBench的应用领域广泛,包括但不限于法律实践、司法决策辅助和法律教育,旨在通过技术手段提升法律服务的效率和质量。

LegalBench, a legal reasoning benchmark dataset co-created by institutions such as Stanford University, is designed to evaluate the performance of foundational models in legal reasoning tasks. The dataset encompasses 44 tasks covering various aspects of the legal field, including contract analysis and jurisdiction determination. The creation process of the dataset adheres to the IRAC framework, ensuring that the task design aligns with the actual needs of legal reasoning. LegalBench has a broad range of applications, including but not limited to legal practice, judicial decision support, and legal education, aiming to enhance the efficiency and quality of legal services through technological means.
提供机构:
斯坦福法学院 斯坦福计算机科学
创建时间:
2022-09-14
AI搜集汇总
数据集介绍
main_image_url
构建方式
LEGALBENCH 数据集的构建是一个跨学科的合作过程,涉及法律专业人士和计算机科学家的共同参与。数据集包括 162 个任务,涵盖六种不同的法律推理类型,这些任务由法律专业人士设计和手工艺制作。这些任务旨在测量 LLMs 在法律推理方面的能力,并为律师和 LLM 开发人员提供一个共同的词汇。LEGALBENCH 还展示了流行的法律推理框架如何对应于数据集中的任务,以便于跨学科对话。
特点
LEGALBENCH 数据集的特点在于其任务的多样性和实用性。它涵盖了六种不同的法律推理类型,包括问题发现、规则回忆、规则应用、规则结论、解释和修辞理解。这些任务旨在模拟律师在实践中的各种工作,例如合同审查、法律问题发现、案例分析等。此外,LEGALBENCH 还提供了一个广泛的分类法,用于组织和描述法律任务,以帮助研究人员更好地理解和比较不同任务之间的性能。
使用方法
使用 LEGALBENCH 数据集进行评估时,需要根据每个任务的要求进行相应的提示和评估。对于规则应用和规则结论任务,需要法律专业人士手动评估 LLM 的输出,以确定其正确性和分析性。对于分类和提取任务,使用精确匹配和 F1 分数进行评估。此外,LEGALBENCH 还提供了基线提示,以促进可重复性和标准化。
背景与挑战
背景概述
LegalBench 数据集由斯坦福大学等机构的研究人员于 2023 年创建,旨在评估大型语言模型(LLM)在法律推理方面的能力。该数据集由 162 个任务组成,涵盖了六种不同的法律推理类型,包括问题识别、规则回忆、规则应用、规则结论、解释和修辞理解。这些任务由法律专业人士设计和手工制作,确保了它们在实践中的有用性,并反映了律师感兴趣的法律推理技能。LegalBench 的创建过程是跨学科的,涉及了法律和计算机科学领域的专家。该数据集的影响力体现在它为法律和人工智能社区提供了一个共同的词汇和框架,以讨论和评估 LLM 在法律领域的表现。
当前挑战
LegalBench 数据集面临的挑战包括:1) 所解决的领域问题,即如何评估 LLM 在法律推理方面的能力;2) 构建过程中所遇到的挑战,例如如何收集和标注法律数据,以及如何设计能够反映真实法律实践的任务。为了解决这些挑战,LegalBench 数据集采用了多种方法,包括收集和整合现有的法律数据集、由法律专业人士设计和标注新的任务、以及创建一个包含六种不同法律推理类型的任务分类体系。此外,LegalBench 数据集还提供了一个支持平台,以帮助研究人员更好地理解如何提示和评估不同的任务。
常用场景
经典使用场景
LEGALBENCH 数据集是一个由法律专业人士共同构建的基准,旨在衡量大型语言模型(LLMs)在法律推理方面的能力。该数据集包含了 162 个任务,涵盖了六种不同的法律推理类型。这些任务是通过跨学科的过程构建的,其中收集了法律专业人士设计和手工制作的任务。LEGALBENCH 旨在促进法律界和 LLM 开发者之间的跨学科对话,并通过区分不同类型的法律推理,为律师和 LLM 开发者提供一个共同的词汇。该数据集提供了一个框架,用于组织和比较任务,使研究人员能够识别性能趋势。此外,LEGALBENCH 还旨在支持进一步的研究,为缺乏法律专业知识的 AI 研究人员提供理解如何提示和评估不同任务的支持。
衍生相关工作
LEGALBENCH 数据集的衍生相关工作包括使用该数据集来评估不同 LLMs 的性能,并探索提示工程技术。此外,该数据集还可以用于微调 LLMs,使其在法律任务中表现更好。此外,LEGALBENCH 的任务还可以用于开发新的法律推理任务和评估 LLMs 的性能。最后,该数据集还可以用于研究 LLMs 在法律领域的应用,并探索它们可能带来的潜在影响和挑战。
数据集最近研究
最新研究方向
LegalBench 数据集的最新研究方向主要集中在评估大型语言模型(LLMs)在法律推理方面的能力,并探索其在法律领域的应用潜力。该数据集通过提供162个任务,涵盖了六种不同的法律推理类型,为研究人员提供了一个平台来评估LLMs在处理法律文本、识别法律问题、应用法律规则、解释法律结论、解释法律文本和进行修辞分析等方面的能力。此外,LegalBench 还旨在促进法律专业人士和AI研究人员之间的跨学科合作,通过提供任务描述、数据收集和评估方法等支持,使得缺乏法律专业知识的研究人员也能更好地理解和参与法律领域的研究。LegalBench 的研究成果有助于法律专业人士更好地理解LLMs的能力和局限性,为LLMs在法律领域的应用提供参考,并促进LLMs在法律领域的进一步研究和开发。
相关研究论文
  • 1
    LegalBench: A Collaboratively Built Benchmark for Measuring Legal Reasoning in Large Language Models · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中铁十四局大盾构掘进施工大数据

我公司将盾构机掘进施工产生的基础数据开发成中铁十四局大盾构掘进施工大数据。该数据资源集包括:施工进度报表、日报、项目地层信息表、项目地层基本信息表、数字盾构-盾构预警信息、壳智汇-传感器数据、项目坐标、报表-掘进记录、报表统计(全状态下所有数据)、报表统计(全状态下所有数据)、报表统计(掘进状态下所有数据)、项目环报、管片上浮、气泡仓压力表、大直径盾构项目统计、盾构施工历史数据-传感器表、盾构施工历史数据-实时数据、盾构施工历史数据-单环分析结果、结泥饼预警计算存储、临时点位表、点位信息配置表、点位历史数据、环号所在表信息、掘进状态记录表、环数据临时表。

山东数据资产登记平台 收录

Wafer Defect

该数据集包含了七个主要类别的晶圆缺陷,分别是:BLOCK ETCH、COATING BAD、PARTICLE、PIQ PARTICLE、PO CONTAMINATION、SCRATCH和SEZ BURNT。这些类别涵盖了晶圆在生产过程中可能出现的多种缺陷类型,每一种缺陷都有其独特的成因和表现形式。数据集不仅在类别数量上具有多样性,而且在样本的多样性和复杂性上也展现了其广泛的应用潜力。每个类别的样本均经过精心标注,确保了数据的准确性和可靠性。

github 收录

TCIA: The Cancer Imaging Archive

TCIA: The Cancer Imaging Archive 是一个公开的癌症影像数据库,包含多种癌症类型的影像数据,如乳腺癌、肺癌、脑癌等。数据集还包括相关的临床数据和生物标记物信息,旨在支持癌症研究和临床应用。

www.cancerimagingarchive.net 收录

开源PHM数据集

本文分享了一个全球各大学、研究机构和公司捐赠的PHM(Prognostics and Health Management)开源数据集,涵盖加工制造、轨道交通、能源电力和半导体等行业的多种场景,包含部件级、设备级和产线级数据。用户可以利用这些数据开发智能分析和建模算法,数据集分类包括故障诊断、健康评估和寿命预测。

github 收录