five

中文法律

收藏
魔搭社区2026-01-15 更新2025-02-22 收录
下载链接:
https://modelscope.cn/datasets/Ayaeee/law_chinese
下载链接
链接失效反馈
官方服务:
资源简介:
# alpaca format source from [DISC-LawLLM]https://github.com/FudanDISC/DISC-LawLLM() # DISC-Law-SFT Dataset Legal Intelligent systems in Chinese require a combination of various abilities, including legal text understanding and generation. To achieve this, we have constructed a high-quality supervised fine-tuning dataset called DISC-Law-SFT, which covers different legal scenarios such as legal information extraction, legal judgment prediction, legal document summarization, and legal question answering. DISC-Law-SFT comprises two subsets, DISC-Law-SFT-Pair and DISC-Law-SFT-Triplet. The former aims to introduce legal reasoning abilities to the LLM, while the latter helps enhance the model's capability to utilize external legal knowledge. For more detailed information, please refer to our [technical report](https://arxiv.org/abs/2309.11325). The distribution of the dataset is: <img src="" alt="" width=""/> <table> <tr> <th>Dataset</th> <th>Task/Source</th> <th>Size</th> <th>Scenario</th> </tr> <tr> <td rowspan="10">DISC-Law-SFT-Pair</td> <td>Legal information extraction</td> <td>32K</td> <td rowspan="7">Legal professional assistant</td> </tr> <tr> <td>Legal event detection</td> <td>27K</td> </tr> <tr> <td>Legal case classification</td> <td>20K</td> </tr> <tr> <td>Legal judgement prediction</td> <td>11K</td> </tr> <tr> <td>Legal case matching</td> <td>8K</td> </tr> <tr> <td>Legal text summarization</td> <td>9K</td> </tr> <tr> <td>Judicial public opinion summarization</td> <td>6K</td> </tr> <tr> <td>Legal question answering</td> <td>93K</td> <td>Legal consultation services</td> </tr> <tr> <td>Legal reading comprehension</td> <td>38K</td> <td rowspan="2">Judicial examination assistant</td> </tr> <tr> <td>Judicial examination</td> <td>12K</td> </tr> <tr> <td rowspan="2">DISC-Law-SFT-Triple</td> <td>Legal judgement prediction</td> <td>16K</td> <td>Legal professional assistant</td> </tr> <tr> <td>Legal question answering</td> <td>23K</td> <td>Legal consultation services</td> </tr> <tr> <td rowspan="2">General</td> <td>Alpaca-GPT4</td> <td>48K</td> <td rowspan="2">General scenarios</td> </tr> <tr> <td>Firefly</td> <td>60K</td> </tr> <tr> <td>Total</td> <td colspan="3">403K</td> </tr> </table> We currently open-source most of the DISC-Law-SFT Dataset. More detail and news check our [homepage](https://github.com/FudanDISC/DISC-LawLLM) !

# Alpaca 格式 数据来源:[DISC-LawLLM](https://github.com/FudanDISC/DISC-LawLLM) # DISC-Law-SFT 数据集 中文法律智能系统需要兼具多项核心能力,涵盖法律文本理解与法律文本生成。为此,我们构建了一款高质量的监督微调数据集——DISC-Law-SFT,该数据集覆盖了法律信息抽取、法律判决预测、法律文档摘要、法律问答等多种法律应用场景。 DISC-Law-SFT 包含两个子数据集:DISC-Law-SFT-Pair 与 DISC-Law-SFT-Triplet。前者旨在为大语言模型(Large Language Model,LLM)注入法律推理能力,后者则用于提升模型调用外部法律知识的能力。如需了解更多细节,请参考我们的[技术报告](https://arxiv.org/abs/2309.11325)。 数据集分布如下: | 数据集 | 任务/来源 | 数据规模 | 应用场景 | | ---- | ---- | ---- | ---- | | DISC-Law-SFT-Pair | 法律信息抽取 | 32K | 法律专业助手 | | | 法律事件检测 | 27K | 法律专业助手 | | | 法律案例分类 | 20K | 法律专业助手 | | | 法律判决预测 | 11K | 法律专业助手 | | | 法律案例匹配 | 8K | 法律专业助手 | | | 法律文本摘要 | 9K | 法律专业助手 | | | 司法舆情摘要 | 6K | 法律专业助手 | | | 法律问答 | 93K | 法律咨询服务 | | | 法律阅读理解 | 38K | 司法考试助手 | | | 司法考试 | 12K | 司法考试助手 | | DISC-Law-SFT-Triple | 法律判决预测 | 16K | 法律专业助手 | | | 法律问答 | 23K | 法律咨询服务 | | General | Alpaca-GPT4 | 48K | 通用场景 | | | Firefly | 60K | 通用场景 | | 总计 | - | 403K | - | 目前我们已开源DISC-Law-SFT数据集的绝大部分内容。 更多详情与最新动态,请访问我们的[官方主页](https://github.com/FudanDISC/DISC-LawLLM)!
提供机构:
maas
创建时间:
2025-02-18
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个高质量的中文法律监督微调数据集,包含DISC-Law-SFT-Pair和DISC-Law-SFT-Triplet两个子集,旨在增强法律文本理解和生成能力。它覆盖法律信息提取、判决预测、文档总结和问答等多种场景,总规模达403K条数据,基于Apache License 2.0开源许可发布。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作