LawInstruct
收藏github2024-05-31 收录
下载链接:
https://github.com/JoelNiklaus/LawInstruct
下载链接
链接失效反馈官方服务:
资源简介:
LawInstruct数据集由斯坦福大学、约翰霍普金斯大学等机构联合创建,是首个面向法律领域的指令数据集。该数据集覆盖17个司法管辖区、24种语言,包含1200万个训练示例,涵盖问答、蕴含、摘要和信息提取等法律任务。每个示例都以定制的指令形式呈现,并配有相应的输出。LawInstruc整合了58个经过标注的高质量数据集,这些数据集源自多个法律任务与专业领域。该数据集的推出,旨在提升大模型在法律推理领域的性能,为法律领域内的信息处理和决策制定能力的发展提供了宝贵资源。
The LawInstruct dataset, co-created by institutions including Stanford University and Johns Hopkins University, is the first instruction dataset dedicated to the legal domain. Spanning 17 jurisdictions and 24 languages, this dataset contains 12 million training examples covering legal tasks such as question answering, entailment, summarization, and information extraction. Each sample is presented in the form of a customized instruction paired with a corresponding output. LawInstruct integrates 58 high-quality labeled datasets sourced from diverse legal tasks and professional domains. The release of this dataset aims to enhance the performance of large language models (LLMs) in legal reasoning, providing a valuable resource for advancing information processing and decision-making capabilities within the legal domain.
提供机构:
斯坦福大学、约翰霍普金斯大学等
原始信息汇总
数据集概述
数据集生成方法
- 将原始数据上传至huggingface hub。
- 在
instruction_datasets文件夹中添加一个类,该类继承自AbstractDataset并实现抽象方法get_data。get_data方法应产生包含以下字段的数据点:- "instruction_language": 指令语言
- "prompt_language": 提示语言
- "answer_language": 答案语言
- "instruction": 模型执行的指令
- "prompt": 模型输入的提示
- "answer": 提供的解决方案答案
- "task_type": 任务类型(例如"summarization")
- "jurisdiction": 示例的司法管辖区(例如"US")
- "subset": 数据集的子集(例如"swiss_judgment_prediction")
- 将数据集添加到
build_instruction_datasets.py中的列表,并运行脚本以生成数据集。
数据集内容
- 使用GPT4生成了每个任务的1到5个种子指令的10个改写版本。
数据集改进建议
- 改进huggingface数据集加载脚本,支持不同数量和语言的指令动态加载。
未来可能添加的数据集
- Swiss Citation Extraction
- MultiLegalNeg Datasets
- 使用相同的指令库(如果适用)
- 增加指令库中的示例并多样化
可能重新考虑的数据集
- IR Datasets: GerDALIR, Covid Law Matching, BSARD, SwissIR
- Summarization Datasets: Dutch Legal Summarization, LegalSum, Indian/Australian Summarization, Cookie Policy Summarization, BVA Summarization, LegalCaseReports Summ
- 其他数据集: BVACItationPrediction, Cornell eRulemaking Corpus, US Caselaw Segmentation, MultiLegalSBD, Contract extraction dataset, CASS, LegalLinking, Privacy Policies, MakeThisYourLastTime, ECHR Argument Mining
搜集汇总
数据集介绍

构建方式
LawInstruct数据集的构建过程严谨且系统化,首先通过编写初始指令并利用GPT-4生成多种语言的释义,确保指令的多样性和语言覆盖。随后,通过继承`AbstractDataset`类并实现`get_data`方法,将数据点按照特定字段(如指令语言、提示语言、答案语言等)进行结构化处理。最终,通过运行`build_instruction_datasets.py`脚本生成完整的数据集,确保数据的高质量和一致性。
特点
LawInstruct数据集的显著特点在于其多语言支持和任务类型的多样性。数据集不仅涵盖了多种语言的指令和答案,还包含了多种法律任务类型,如总结、命名实体识别等,适应不同的法律应用场景。此外,数据集的构建过程中采用了GPT-4进行释义生成,增强了指令的多样性和复杂性,使其在法律领域的模型训练中具有更高的实用价值。
使用方法
使用LawInstruct数据集时,首先需安装相关依赖并确保Python版本为3.10或更高。接着,通过运行`build_instruction_datasets.py`脚本生成数据集,并根据需要选择特定的数据子集。数据集的每个数据点均包含详细的字段信息,如指令、提示、答案等,便于模型训练和评估。此外,数据集支持动态加载不同语言和任务类型的指令,提升了使用的灵活性和效率。
背景与挑战
背景概述
LawInstruct数据集是由Joel Niklaus等人创建,旨在为法律领域的指令调优提供高质量的数据资源。该数据集的核心研究问题是如何通过生成多样化的法律指令数据,提升大型语言模型在法律推理任务中的表现。LawInstruct的创建时间可追溯至2024年,其主要研究人员包括Joel Niklaus、Lucia Zheng等,他们通过结合GPT-4生成 paraphrases 的方式,扩展了初始的指令集。该数据集对法律领域的自然语言处理研究具有重要影响,尤其是在法律推理和指令调优方面,为模型提供了丰富的训练数据。
当前挑战
LawInstruct数据集在构建过程中面临多项挑战。首先,法律文本的复杂性和多样性使得数据标注和处理变得尤为困难。其次,不同司法管辖区的法律体系差异,要求数据集能够涵盖多种法律背景,增加了数据集的构建难度。此外,如何确保生成的指令数据在不同语言和文化背景下的有效性和一致性,也是一个重要的挑战。最后,数据集的扩展和更新需要持续的资源投入和技术支持,以应对法律领域的动态变化。
常用场景
经典使用场景
LawInstruct数据集的经典使用场景主要集中在法律领域的指令生成与任务执行。该数据集通过提供多语言的法律指令、提示和答案,支持法律文本的摘要、问答、命名实体识别等任务。例如,在法律文本摘要任务中,模型可以根据提供的指令对法律文档进行精炼,生成简洁且准确的法律摘要。
解决学术问题
LawInstruct数据集解决了法律领域中多语言指令生成与执行的学术研究问题。通过提供多语言的法律指令和任务类型,该数据集促进了法律文本处理模型的跨语言适应性和任务泛化能力。这不仅提升了法律文本处理的效率,还为多语言法律信息检索和自动化法律分析提供了新的研究方向。
衍生相关工作
LawInstruct数据集的发布催生了一系列相关研究工作,特别是在法律文本处理和多语言法律信息检索领域。例如,基于该数据集的研究已经扩展到法律问答系统、法律文本生成和法律文档摘要等多个方向。这些工作不仅丰富了法律文本处理的技术手段,还为法律科技的发展提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



