five

ShengbinYue/DISC-Law-SFT|法律智能数据集|人工智能数据集

收藏
hugging_face2024-10-20 更新2024-03-04 收录
法律智能
人工智能
下载链接:
https://hf-mirror.com/datasets/ShengbinYue/DISC-Law-SFT
下载链接
链接失效反馈
资源简介:
DISC-Law-SFT数据集是一个高质量的中文法律监督微调数据集,旨在提升法律智能系统的能力,包括法律文本的理解和生成。该数据集包含两个子集:DISC-Law-SFT-Pair和DISC-Law-SFT-Triplet,分别用于引入法律推理能力和增强模型利用外部法律知识的能力。数据集涵盖了多种法律场景,如法律信息提取、法律判决预测、法律文档摘要和法律问答等。具体任务包括法律信息提取、法律事件检测、法律案件分类、法律判决预测、法律案件匹配、法律文本摘要、司法舆情摘要、法律问答、法律阅读理解和司法考试等。数据集总规模为403K,适用于法律专业助理、法律咨询服务和司法考试助理等场景。
提供机构:
ShengbinYue
原始信息汇总

DISC-Law-SFT Dataset 概述

数据集基本信息

  • 名称: DISC-Law-SFT Dataset
  • 语言: 中文
  • 标签: 法律
  • 大小: 100M<n<1B
  • 许可证: Apache-2.0

数据集内容

DISC-Law-SFT 数据集包含两个主要子集:

1. DISC-Law-SFT-Pair

  • 目的: 引入法律推理能力
  • 任务与大小:
    • 法律信息提取: 32K
    • 法律事件检测: 27K
    • 法律案例分类: 20K
    • 法律判决预测: 11K
    • 法律案例匹配: 8K
    • 法律文本摘要: 9K
    • 司法舆论摘要: 6K
    • 法律问答: 93K
    • 法律阅读理解: 38K
    • 司法考试: 12K

2. DISC-Law-SFT-Triplet

  • 目的: 增强模型利用外部法律知识的能力
  • 任务与大小:
    • 法律判决预测: 16K
    • 法律问答: 23K

通用部分

  • 任务与大小:
    • Alpaca-GPT4: 48K
    • Firefly: 60K

数据集总大小

  • 总计: 403K

数据集开放情况

  • 状态: 大部分已开源
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建DISC-Law-SFT数据集时,研究团队精心设计了两个子集:DISC-Law-SFT-Pair和DISC-Law-SFT-Triplet。前者旨在提升大语言模型(LLM)的法律推理能力,后者则侧重于增强模型利用外部法律知识的能力。数据集涵盖了多种法律场景,包括法律信息提取、法律事件检测、法律案例分类、法律判决预测、法律案例匹配、法律文本摘要、司法舆情摘要、法律问答、法律阅读理解和司法考试等。通过这些多样化的任务,数据集全面覆盖了法律智能系统所需的各种能力。
使用方法
DISC-Law-SFT数据集适用于多种法律智能系统的开发和优化。研究者和开发者可以利用该数据集进行监督微调,以提升模型在法律文本理解、生成和推理方面的能力。具体使用时,可以根据不同的任务需求选择相应的子集进行训练和评估。此外,数据集的开源特性也使得其广泛适用于学术研究和实际应用中,为法律智能领域的发展提供了坚实的基础。
背景与挑战
背景概述
随着法律智能系统的快速发展,中文法律文本的理解与生成能力成为关键。为应对这一需求,DISC-Law-SFT数据集应运而生,由Shengbin Yue及其团队于近期构建。该数据集旨在通过高质量的监督微调,提升法律文本处理能力,涵盖法律信息提取、法律判决预测、法律文书摘要生成及法律问答等多个法律场景。DISC-Law-SFT数据集分为DISC-Law-SFT-Pair和DISC-Law-SFT-Triplet两个子集,分别侧重于法律推理能力的引入和外部法律知识的利用。这一数据集的构建不仅填补了中文法律智能领域的数据空白,也为相关研究提供了坚实的基础。
当前挑战
DISC-Law-SFT数据集在构建过程中面临多重挑战。首先,法律文本的复杂性和专业性要求数据集具备高度的准确性和专业性,这对数据标注和处理提出了极高的要求。其次,法律场景的多样性使得数据集需要覆盖广泛的法律任务,如法律信息提取、法律判决预测等,这增加了数据集的构建难度。此外,如何有效整合外部法律知识以提升模型的推理能力,也是该数据集面临的重要挑战。最后,数据集的规模和多样性要求在确保质量的同时,还需兼顾数据的平衡性和代表性,以支持不同法律任务的训练需求。
常用场景
经典使用场景
在法律智能系统中,DISC-Law-SFT数据集的经典使用场景主要集中在法律文本理解和生成能力的提升。该数据集通过涵盖法律信息提取、法律判决预测、法律文档摘要和法律问答等多种任务,为法律专业助理和司法考试助理提供了丰富的训练资源。例如,在法律信息提取任务中,模型能够从复杂的法律文书中提取关键信息,从而辅助法律从业者进行案件分析和判决预测。
解决学术问题
DISC-Law-SFT数据集解决了法律领域中多个重要的学术研究问题。首先,它通过提供高质量的法律文本数据,促进了法律文本理解和生成技术的研究。其次,数据集中的法律判决预测任务有助于研究法律推理和预测模型的构建,这对于提高司法决策的准确性和效率具有重要意义。此外,法律问答和阅读理解任务的引入,为法律知识图谱和自然语言处理技术的结合提供了新的研究方向。
实际应用
在实际应用中,DISC-Law-SFT数据集被广泛用于构建智能法律咨询服务和司法辅助系统。例如,在法律咨询服务中,通过法律问答任务的训练,模型能够快速准确地回答用户的法律问题,提供专业的法律建议。在司法考试辅助系统中,法律阅读理解和司法考试任务的训练,使得模型能够帮助考生进行法律知识的复习和模拟考试,提高考试通过率。
数据集最近研究
最新研究方向
在法律智能系统领域,DISC-Law-SFT数据集的最新研究方向主要集中在提升法律文本理解和生成的能力上。该数据集通过构建高质量的监督微调数据,涵盖了法律信息提取、法律判决预测、法律文档摘要和法律问答等多种法律场景,旨在增强大型语言模型(LLM)在法律领域的应用能力。特别是,DISC-Law-SFT-Pair子集专注于引入法律推理能力,而DISC-Law-SFT-Triplet子集则致力于提升模型利用外部法律知识的能力。这些研究不仅推动了法律智能系统的发展,也为法律专业助理和法律咨询服务提供了新的技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

马达加斯加岛 – 世界地理数据大百科辞条

马达加斯加岛在非洲的东南部,位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望,最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明,马达加斯加岛面积591,128.68平方千米,其中马达加斯加本岛面积589,015.06平方千米,周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛,是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形,南北向长1,572千米;南北窄,中部宽,最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米,周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区,119个县。22个区分别为:阿那拉芒加区,第亚那区,上马齐亚特拉区,博爱尼区,阿齐那那那区,阿齐莫-安德列发那区,萨瓦区,伊达西区,法基南卡拉塔区,邦古拉法区,索非亚区,贝齐博卡区,梅拉基区,阿拉奥特拉-曼古罗区,阿那拉兰基罗富区,阿莫罗尼马尼亚区,法土法韦-非图韦那尼区,阿齐莫-阿齐那那那区,伊霍罗贝区,美那贝区,安德罗伊区和阿诺西区。首都安塔那那利佛(Antananarivo)位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山,其主峰马鲁穆库特鲁山(Maromokotro)海拔2,876米,是全国最高峰。马达加斯加自然景观垂直地带性分异显著,是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物,其中包括马达加斯加特有物种狐猴(Lemur catta)、马达加斯加国树猴面包树(Adansonia digitata L.)等。

国家对地观测科学数据中心 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

ICESat-2 Data

ICESat-2 Data 是由美国国家航空航天局(NASA)发布的卫星数据集,主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据,用于研究冰川、海冰、植被和地形变化。

icesat-2.gsfc.nasa.gov 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录