five

nepal_civil_law_QA_v2

收藏
Hugging Face2025-07-15 更新2025-07-16 收录
下载链接:
https://huggingface.co/datasets/chhatramani/nepal_civil_law_QA_v2
下载链接
链接失效反馈
官方服务:
资源简介:
尼泊尔民事法律问答数据集v2是一个高质量、基于指令的问答数据集,从尼泊尔的官方法律文件中合成生成,主要关注民事法律。该数据集适用于微调和评估针对尼泊尔的法律领域大型语言模型。
创建时间:
2025-07-14
原始信息汇总

📚 Nepal Civil Law QA Dataset v2 数据集概述

📌 基本信息

  • 许可证: apache-2.0
  • 语言: 英语 (en)
  • 标签: 法律 (legal)
  • 规模分类: 1K<n<10K
  • 下载大小: 415879
  • 数据集大小: 1077879
  • 训练集样本数: 2712

⚙️ 数据集特征

  • 特征:
    • instruction (string)
    • output (string)
    • input (string)
  • 数据格式: JSON

📈 数据集内容

  • 来源文档: Nepal Civil Code 2074 (नेपालको देवानी संहिता २०७४)
  • 创建方法:
    1. 使用官方法律文档进行合成QA生成
    2. 采用分块策略保留法律上下文
    3. 使用Google Gemini 2.0 Flash模型生成高质量QA对
    4. 后处理包括格式化、去重和验证

📊 评估指标

  • 输入基础性: 100% (2712/2712)
  • 基础百分比: 91.30%
  • 平均余弦相似度 (指令-输出): 0.7646
  • 指令多样性 (1 - cosine): 0.6563
  • 输出连贯性 (近似): 0.8524
  • 标签一致性: 0.7527
  • BLEU-4分数: 0.145
  • ROUGE-1 F1: 0.428
  • ROUGE-2 F1: 0.246
  • 平均指令长度: 20.61词
  • 平均输出长度: 44.03词
  • 隐私分数 (直接复制): 0.0%

🧠 预期用途

  • 法律QA和文档摘要的LLM微调
  • 评估领域特定LLM的基础性和事实准确性
  • 构建双语法律助手或聊天机器人 (尼泊尔语-英语)
  • 针对尼泊尔等代表性不足地区的法律NLP研究

🛠 使用工具

  • Python (PDF提取, 批处理逻辑)
  • Gemini 2.0 Flash API (合成QA生成)
  • 自定义指标评估器 (基础性、相关性、连贯性等)

🤝 贡献者

  • 由Chhatramani Yadav作为尼泊尔法律领域低计算双语LLM的小型项目的一部分准备
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于尼泊尔民法法典2074官方文件,采用先进的合成问答生成技术构建而成。通过文档分块、结构化提示和基于Gemini 2.0 Flash模型的生成方法,确保了问答对的多样性和连贯性。构建过程包括源文档处理、分块策略设计、提示技术优化、模型生成以及后处理验证等多个严谨步骤,最终形成2712个高质量的法律问答对。
特点
作为专注于尼泊尔民法领域的专业数据集,其显著特点体现在三个方面:内容全面覆盖尼泊尔民法法典2074,所有问答均基于法律条文;质量优异,经过8项指标严格评估,事实一致性达91.3%,语义相关性0.7646;格式规范,采用指令-输出结构,平均问题长度20.61词,答案长度44.03词,既保持描述性又不失简洁。
使用方法
该数据集主要服务于法律领域自然语言处理研究,典型应用场景包括:法律大语言模型的指令微调,通过2712个专业问答对提升模型在尼泊尔民法领域的表现;法律问答系统评估,利用其高质量标注测试系统的事实准确性和逻辑连贯性;低资源语言NLP研究,为尼泊尔语-英语双语法律助手开发提供数据支持。使用时可直接加载Hugging Face平台提供的标准化数据格式。
背景与挑战
背景概述
Nepal Civil Law QA Dataset v2 是一个专注于尼泊尔民法领域的高质量问答数据集,基于尼泊尔民法法典2074(नेपालको देवानी संहिता २०७४)构建而成。该数据集由研究人员Chhatramani Yadav主导开发,旨在为法律领域的语言模型提供精细调优和评估的基础。数据集采用合成问答生成技术,结合文档分块和结构化提示,利用Gemini 2.0 Flash模型生成多样且连贯的问答对。其核心研究问题在于如何通过高质量的数据集提升法律领域语言模型在低资源语言环境下的表现,尤其在尼泊尔法律文本的多语言处理中具有重要意义。该数据集的发布为尼泊尔法律自然语言处理研究填补了空白,并为低资源语言的法律智能应用提供了重要支持。
当前挑战
Nepal Civil Law QA Dataset v2 面临的挑战主要体现在两个方面。其一,在领域问题解决方面,尼泊尔法律文本的多语言性和低资源特性为问答系统的准确性和泛化能力提出了较高要求,尤其是在法律术语的精确理解和多语言转换上存在显著难度。其二,在数据集构建过程中,如何确保生成的问答对既符合法律文本的严谨性,又具备足够的多样性和连贯性是一大挑战。此外,数据集的验证和去重过程需要高度依赖人工干预,以确保问答对与源文本的事实一致性。这些挑战不仅影响了数据集的构建效率,也对后续模型训练的效果提出了更高要求。
常用场景
经典使用场景
在尼泊尔民事法律领域的研究中,nepal_civil_law_QA_v2数据集为法律问答系统的开发提供了重要支持。该数据集通过高质量的问答对生成,特别适用于微调法律领域的大型语言模型(LLMs),帮助模型理解和回答与尼泊尔民事法典相关的问题。其多样化的指令和输出结构使得模型能够适应复杂的法律语言环境,提升问答的准确性和连贯性。
实际应用
在实际应用中,nepal_civil_law_QA_v2数据集被广泛用于构建尼泊尔双语法律助手和聊天机器人。其高质量的问答对支持法律文档的自动摘要和问答功能,帮助法律从业者和公众快速获取准确的民事法律信息。此外,该数据集还为尼泊尔法律信息系统的开发提供了数据支持。
衍生相关工作
基于该数据集,研究者们开发了多种法律领域的自然语言处理模型和应用。例如,针对尼泊尔民事法律的问答系统和文档摘要工具。这些工作不仅提升了法律信息的可及性,还为低资源语言环境下的法律NLP研究树立了典范,推动了相关技术的进一步发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作