calme-legalkit-v0.1

Name: calme-legalkit-v0.1
Creator: maas
Published: 2025-11-27 16:55:32
License: 暂无描述

魔搭社区2025-11-27 更新2025-11-29 收录

下载链接：

https://modelscope.cn/datasets/MaziyarPanahi/calme-legalkit-v0.1

下载链接

链接失效反馈

官方服务：

资源简介：

# Calme LegalKit v0.1 ## Calme's Enhanced Synthetic Dataset for Advanced Legal Reasoning <img src="./calme-legalkit.png" alt="Calme LegalKit Dataset" width="800" style="margin-left:'auto' margin-right:'auto' display:'block'"/> [![Hugging Face](https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Dataset-blue)](https://huggingface.co/datasets/MaziyarPanahi/calme-legalkit-v0.1) [![License: CC-BY-4.0](https://img.shields.io/badge/License-CC%20BY%204.0-lightblue.svg)](https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/cc-by-4.0.md) ## 🚀 Quick Links - [Dataset Page](https://huggingface.co/datasets/YourUsername/calme-legalkit-v0.1) - [Fine-tuned Model](https://huggingface.co/MaziyarPanahi/calme-2.3-legalkit-8b) - [Original LegalKit Dataset](https://huggingface.co/datasets/louisbrulenaudet/legalkit) ## 📖 Overview Calme LegalKit v0.1 is a **synthetically generated dataset** designed to enhance **legal reasoning** and **analysis capabilities** in language models. This dataset builds upon the foundation laid by [Louis Brulé Naudet's LegalKit](https://huggingface.co/datasets/louisbrulenaudet/legalkit), incorporating advanced Chain of Thought (CoT) reasoning and specialized legal knowledge. ### Key Features - Synthetic data generation using state-of-the-art language models - Focus on legal reasoning and analysis - Incorporation of Chain of Thought (CoT) methodologies - Designed for fine-tuning smaller, specialized language models ## 🛠️ Generation Process The dataset was created using the following process: 1. **Base Model**: `NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO` 2. **Infrastructure**: Hugging Face's Inference Endpoint 3. **Methodology**: Advanced prompting techniques to generate high-quality, synthetic legal data ## 📊 Dataset Statistics | Metric | Value | |--------|-------| | Total Tokens (with system prompt) | 22.10M | | Total Tokens (without system prompt) | 15.67M | | Assistant Tokens | 14.68M | | Minimum Tokens per Entry | 101 | | Maximum Tokens per Entry | 1,423 | | Average Tokens per Entry | 583.37 | ## 🎯 Use Cases - Fine-tuning smaller language models for legal tasks - Enhancing legal reasoning capabilities in AI systems - Developing specialized legal assistants and chatbots - Academic research in AI and law ## 🔬 Research Impact This dataset has been used to fine-tune [calme-2.3-legalkit-8b](https://huggingface.co/MaziyarPanahi/calme-2.3-legalkit-8b), demonstrating that smaller language models can be effectively specialized for complex tasks like legal reasoning. The results suggest that these fine-tuned models can perform comparably or even better than models 10 times their size in specific domains. ## 🚀 Getting Started To use this dataset in your projects: ```python from datasets import load_dataset dataset = load_dataset("MaziyarPanahi/calme-legalkit-v0.1") ``` ## 📜 License This dataset is released under the [Creative Commons Attribution 4.0](https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/cc-by-4.0.md) ## 🙏 Acknowledgements - [Louis Brulé Naudet](https://huggingface.co/louisbrulenaudet) for the original LegalKit dataset - [NousResearch](https://huggingface.co/NousResearch) for the Nous-Hermes-2-Mixtral-8x7B-DPO model - Hugging Face for providing the infrastructure and Inference Endpoints ## 📬 Contact For questions, suggestions, or collaborations, please open an issue on the [dataset repository](https://huggingface.co/datasets/MaziyarPanahi/calme-legalkit-v0.1/discussions). --- I am excited to see how you use Calme LegalKit v0.1 in your projects! If you find it helpful, please consider citing the work and sharing your results with the community.

# Calme 法律工具包 v0.1 ## Calme 增强型合成法律推理数据集 <img src="./calme-legalkit.png" alt="Calme LegalKit 数据集" width="800" style="margin-left:'auto' margin-right:'auto' display:'block'"/> [![Hugging Face](https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-%E6%95%B0%E6%8D%AE%E9%9B%86-blue)](https://huggingface.co/datasets/MaziyarPanahi/calme-legalkit-v0.1) [![License: CC-BY-4.0](https://img.shields.io/badge/License-CC%20BY%204.0-lightblue.svg)](https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/cc-by-4.0.md) ## 🚀 快速导航 - [数据集页面](https://huggingface.co/datasets/YourUsername/calme-legalkit-v0.1) - [微调模型](https://huggingface.co/MaziyarPanahi/calme-2.3-legalkit-8b) - [原始LegalKit数据集](https://huggingface.co/datasets/louisbrulenaudet/legalkit) ## 📖 概览 Calme 法律工具包 v0.1 是一款旨在提升大语言模型（Large Language Model, LLM）法律推理与分析能力的合成生成数据集。本数据集以Louis Brulé Naudet的LegalKit数据集为基础，融入了先进的思维链（Chain of Thought, CoT）推理方法与专业法律知识。 ### 核心特性 - 采用前沿大语言模型生成合成数据 - 聚焦法律推理与分析任务 - 集成思维链（CoT）方法论 - 专为小型专业大语言模型的微调设计 ## 🛠️ 生成流程本数据集通过以下流程构建： 1. **基础模型**：`NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO` 2. **基础设施**：Hugging Face 推理端点 3. **方法**：采用高级提示工程技术生成高质量合成法律数据 ## 📊 数据集统计 | 指标 | 数值 | |--------|-------| | 含系统提示词的总Token数 | 22.10M | | 不含系统提示词的总Token数 | 15.67M | | 助手侧Token数 | 14.68M | | 单条目最小Token数 | 101 | | 单条目最大Token数 | 1,423 | | 单条目平均Token数 | 583.37 | ## 🎯 应用场景 - 面向法律任务的小型大语言模型微调 - 提升AI系统的法律推理能力 - 开发专业法律智能体与聊天机器人 - 人工智能与法学领域的学术研究 ## 🔬 研究价值本数据集已被用于微调[calme-2.3-legalkit-8b](https://huggingface.co/MaziyarPanahi/calme-2.3-legalkit-8b)模型，证明小型大语言模型可被有效适配至法律推理等复杂任务。实验结果表明，经过微调的此类模型在特定领域的表现可与十倍于其体量的模型相媲美，甚至更优。 ## 🚀 快速上手若要在项目中使用本数据集，请参考以下代码： python from datasets import load_dataset dataset = load_dataset("MaziyarPanahi/calme-legalkit-v0.1") ## 📜 许可证本数据集采用[知识共享署名4.0](https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/cc-by-4.0.md)协议发布。 ## 🙏 致谢 - [Louis Brulé Naudet](https://huggingface.co/louisbrulenaudet) 提供原始LegalKit数据集 - [NousResearch](https://huggingface.co/NousResearch) 提供Nous-Hermes-2-Mixtral-8x7B-DPO模型 - Hugging Face 提供基础设施与推理端点服务 ## 📬 联系我们若有疑问、建议或合作意向，请在数据集仓库的讨论区提交议题。 --- 期待您在项目中使用Calme 法律工具包 v0.1！若本数据集对您有所帮助，请考虑引用该成果并与社区分享您的实验结果。

提供机构：

maas

创建时间：

2025-11-20

5,000+

优质数据集

54 个

任务类型

进入经典数据集