five

pbgdpl-vn-legal-qna

收藏
Hugging Face2026-05-09 更新2026-05-10 收录
下载链接:
https://huggingface.co/datasets/tmquan/pbgdpl-vn-legal-qna
下载链接
链接失效反馈
官方服务:
资源简介:
pbgdpl.gov.vn越南法律问答数据集是一个由越南司法部(Bộ Tư pháp)公开的法律教育门户网站收集的问答对集合。数据集包含4,593个越南语问答对,时间跨度为2007年3月13日至2021年10月20日。每个问答对由公众提交的法律问题和司法部或其合作部门提供的官方回答组成,回答中高度引用了越南主要法律条文(如Luật、Bộ luật、Nghị định、Thông tư等),引用率高达98.1%。数据集适用于封闭领域问答、信息检索、主题分类和法律实体识别等任务。数据集还包含丰富的元数据,如法律主题分类(LinhVuc)、发送者信息、发布日期等。数据集的发布遵循越南政府公共问答的许可要求,使用时需注明来源并保留原始免责声明。
创建时间:
2026-05-08
原始信息汇总

数据集概述:pbgdpl.gov.vn — Vietnamese Legal Q&A

基本信息

项目 内容
数据集名称 pbgdpl.gov.vn — Vietnamese Legal Q&A
语言 越南语 (vi)
许可证 其他(越南政府公开问答)
记录数量 4,593 对问答对
时间范围 2007-03-13 至 2021-10-20(自2021年底起冻结)
主题分类 532 个声明的法律领域主题,29 个活跃主题
法律引用率 98.1% 的答案引用了主要法律
数据来源 https://pbgdpl.gov.vn/Pages/hoi-dap-pl.aspx
爬取时间 2026-05-08

数据集内容

每条记录包含一个公众提交的法律问题及司法部(Bộ Tư pháp)工作人员或合作部门撰写的官方答案。答案高度依赖主要法律引用:91% 引用至少一部《Luật》(法律),90% 引用至少一个《Điều》(条款),每条答案平均引用3.1个条款。

除了问答文本,每条记录还携带元数据:

  • LinhVuc:法律主题分配
  • Featured set:首页“热门问题”标识(is_featured
  • Listing position:在全局列表中的页码和位置
  • Provenance:来源 URL、爬取运行 ID、获取时间戳和状态审计字段

支持的任务

  • 问答(Question Answering):越南语法律领域封闭域问答
  • 信息检索(Information Retrieval):4,593 对问答对,适合密集/混合检索器评估
  • 主题分类(Topic Classification):29 个类别的单标签法律主题分类
  • 引用提取/法律命名实体识别(Citation Extraction / Legal-NER):高引用密度,适用于越南法律工具 NER 评估

数据结构

数据实例示例

jsonc { "item_id": 16557, "source": "pbgdpl.gov.vn", "source_url": "https://pbgdpl.gov.vn/SMPT_Publishing_UC/HoiDapPL/frmDSCauHoi.aspx?ItemID=16557", "scraped_at": "2026-05-08T12:50:18+00:00", "scrape_run_id": "20260508T121702Z", "listing_page": 256, "listing_position": 4, "is_featured": false, "lv_ids": [104], "lv_names": ["Dân sự"], "title": "Hai lần thế chấp quyền sử dụng đất để đảm bảo cho hai nghĩa vụ", "question_text": "...", "answer_text": "...", "date_sent_raw": "06/07/2012", "date_sent": "2012-07-06", "sender_name": null, "disclaimer": "(Nội dung trả lời chỉ mang tính chất tham khảo)", "question_char_len": 375, "answer_char_len": 2333, "question_word_count": 71, "answer_word_count": 491, "answer_text_hash": "3a6c0e…", "fetch_status": "ok", "fetch_error": null }

主要字段说明

字段 类型 描述
item_id int 主键
source_url str 精确的 ?ItemID= URL
lv_ids / lv_names int[] / str[] 法律主题 ID 和名称
question_text str 清洗后的问题正文
answer_text str 清洗后的答案正文
date_sent str? 发送日期(ISO YYYY-MM-DD)
sender_name str? 公开的发送者名称
disclaimer str? 免责声明文本

数据拆分

配置 拆分 记录数
qa(默认) train 4,593
listings train 4,593

使用 load_dataset("tmquan/pbgdpl-vn-legal-qna") 获取默认的 QA 配置;传递 name="listings" 获取列表侧元数据视图。

辅助文件

  • taxonomy.json:532 个声明的法律领域主题 + 精选 ID 列表
  • analytics.json:预计算汇总(主题计数、年份分布、长度直方图、引用密度、发送者统计、示例记录)
  • manifest.json:单次运行摘要

主题分布

数量 主题
800 Dân sự(民法)
554 Thi hành án(判决执行)
393 Hôn nhân gia đình(家庭法)
368 Đất đai(土地法)
354 Hình sự(刑法)
288 Hộ tịch(民事身份)
240 Công chứng(公证)
211 Hành chính tư pháp(司法行政)
145 Thương mại, đầu tư, chứng khoán(商业、投资、证券)
143 Lao động(劳动法)
124 Chứng thực(认证)
97 Giao dịch đảm bảo(担保交易)
92 Cư trú(居住)
85 Con nuôi(收养)
69 Lý lịch tư pháp(司法记录)
  • 前5个主题覆盖语料库的54%
  • 仅有532个声明主题中的29个包含数据
  • 每条问答仅分配一个主题

数据集创建

数据来源

数据由越南司法部(Bộ Tư pháp)在公共法律教育门户 pbgdpl.gov.vn 发布。门户由 ASP.NET WebForms 功能模块提供服务器端渲染的 HTML,无公开 JSON/OData/SOAP API。

爬虫通过以下方式收集数据:

  • 列表页面GET /SMPT_Publishing_UC/HoiDapPL/frmDSCauHoi.aspx?page=N(1-575页)
  • 主题过滤列表GET …?lv=<id>&page=N
  • 详情页面GET …?ItemID=<id>

爬取参数:2 QPS / 4 个工人,完整语料库运行约50分钟

个人信息/敏感信息

sender_name 包含来源门户公布的发送者标签。约93%的记录(4,291/4,593)包含非空发送者名称,共3,371个不同值。这些名称已在 pbgdpl.gov.vn 上公开,但下游用户应将其视为低敏感度个人身份信息(PII)

使用注意事项

社会影响

该语料库适用于:

  • 越南法律语言建模和检索研究
  • 基于权威越南参考语料库的接地生成系统评估
  • 法律信息获取和部门使用的法律主题结构研究

偏差与局限性

  • 自2021-10-20起冻结:门户自那以后未发布新提交
  • 法律引用可能过时:例如家庭法答案引用2000年法律,但现行法律是2014年版本
  • 免责声明:所有答案附有“仅供参考”声明,不能替代合格法律咨询
  • 主题倾斜:前5个民法主题占语料库的54%
  • 日期倾斜:三个发布高峰(2012年、2015年、2021年)约占语料库一半
  • 发送者字段噪声:包含假名、部分名称和聚合账户名称
  • 无软删除项:本次发布中0条记录返回空片段

许可证

数据集以**其他(越南政府公开问答)**许可证分发,对下游用户有非排他性期望:

  1. 在任何衍生数据集或出版物中注明来源pbgdpl.gov.vn,Bộ Tư pháp)
  2. 重新分发答案文本时保留来源免责声明
  3. sender_name 视为低敏感度 PII
  4. 不得在更宽松的许可证下重新分发
  5. 数据使用受适用越南法律和来源门户服务条款约束
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自越南司法部下属普法门户网站 pbgdpl.gov.vn 上的法律问答板块,通过爬虫技术系统性地采集了自2007年至2021年间公众提交的法律问题及司法部门工作人员的官方答复。爬虫模拟浏览器行为,遍历了575个列表页面以及按29个法律主题分类的过滤列表,逐一获取每条问答的完整HTML内容,并从中清洗提取出结构化的文本与元数据。最终构建出包含4593条问答对的高质量越南语法律问答语料库,每条记录均保留了来源URL、爬取时间戳、主题标签、发布时间及提问者信息等辅助字段。
使用方法
该数据集可通过HuggingFace的datasets库便捷加载,默认获取包含4593条问答对的qa配置,也可通过指定name参数为listings获取列表元数据视图。用户可利用主题字段lv_names进行过滤,例如筛选出刑事法相关问答,或基于答案文本中法律关键词的正则匹配构建引证检索语料库。数据集支持多种下游任务,包括封闭域越南语法律问答、基于稠密或混合检索的信息检索评估、29类法律主题分类,以及高密度的法律文书命名实体识别训练与评测。
背景与挑战
背景概述
pbgdpl-vn-legal-qna数据集源自越南司法部(Bộ Tư pháp)下属的普法教育门户网站pbgdpl.gov.vn,旨在收集和整理2007年至2021年间公众提交的法律咨询问题及官方答复。该数据集由研究团队TMQuan于2026年爬取并发布,包含4,593对问答记录,覆盖29个法律主题领域,其中98.1%的答案引用初级法律文献(如《Luật》《Nghị định》等)。作为越南法律自然语言处理领域的重要资源,它支撑起封闭域问答、信息检索、法律主题分类及法律实体识别等方向的研究,填补了越南语法律数据库的空白,为司法信息可及性和法律语言建模提供了结构化、可复现的基准。
当前挑战
该数据集面临多重挑战。首先,法律问答领域本质要求高精度的信息检索与生成,但越南法律体系复杂且持续更新,数据集冻结于2021年,早期引用法律可能已被修订,例如《婚姻家庭法》2000年版已被2014年版取代,导致用于当前法律咨询时存在时效性隐患。其次,构建过程中,由于源门户未提供公开API,需通过模拟浏览器行为爬取ASP.NET生成的HTML页面,爬取效率受限且难以处理动态内容。此外,主题分布严重不均——前五大民事领域主题占据54%的数据量,小众法律领域数据稀疏,影响模型泛化能力。发送者字段包含约3,371个真实姓名,属于低敏感性个人身份信息,在数据重用与隐私保护间需谨慎平衡。
常用场景
经典使用场景
该数据集为越南法律领域的问答系统研究提供了端到端的监督训练语料,每一对问答均由司法部官方人员撰写,且98.1%的答案明确引用了《Luật》、《Bộ luật》、《Nghị định》等一级法律条文,平均每个答案引用3.1个法律条款。研究者可直接使用question_text至answer_text的映射关系,构建封闭域中的法律问答模型,评估模型在专业术语密集、逻辑严谨场景下的生成与理解能力。借助主题标签(LinhVuc),还可在民事、刑事、土地等29个法律子领域上进行细粒度问答任务的训练与评测,极大丰富了越南语法律NLP的资源储备。
解决学术问题
该数据集着力解决了越南法律自然语言处理领域长期缺乏高质量、结构化且具有权威引用关系的问答语料的困境。学术研究者可借此突破两个关键问题:一是法律文本中的多层级实体识别(Luật、Điều、khoản、Nghị định等法律文书类型的NER),二是基于引用的生成式答案的忠实度评估——91%的回答引用至少一部Luật、90%提及至少一个Điều,为句子级引用检测和归因提供了天然的黄金标准。数据集还天然支持29类的法律主题分类任务,有助于评估模型区分相近法律领域(如Dân sự与Đất đai)的语义判别能力。其意义在于填补了越南语法律信息检索与知识图谱构建的空白,推动了低资源语言在法律AI方向的学术探索。
实际应用
在实际应用层面,该数据集可赋能越南公共法律服务体系中的智能助手建设。政府部门或法律科技公司可利用该语料训练面向公众的法律Q&A机器人,回答公民关于民事纠纷、土地抵押、婚姻家庭、劳动权益等高频法律诉求,降低公共法律服务门槛。由于答案均附带原文出处链接,系统可将引用条款嵌入到回复中,提供可追查、可信赖的法律建议,避免AI产生虚假法律意见。此外,数据集中的主题分布(如Dân sự占比最高达800条)可帮助法律门户优化问答导航的层级设计,使后台自动将用户问题分类至相应法律专题下,提升信息检索的精准度与用户满意度。
数据集最近研究
最新研究方向
该数据集聚焦于越南法律领域的高质量问答对,为封闭域问答、信息检索和文本分类提供了坚实的数据基础。前沿研究方向包括利用其98.1%的高法律条文引用率,开发面向越南语的法律专用检索增强生成(RAG)系统,以及训练能够精准识别法律实体(如法令、条款)的命名实体识别模型。此外,该数据集29个法律主题的细粒度分类标签,为构建越南语法律文本的多标签分类与主题建模研究提供了宝贵资源,其结构化元数据(如问题发送者信息、发布时间戳)还可用于分析公民法律咨询行为的时间演化模式。该数据集的发布填补了越南法律NLP领域高质量基准语料的空白,对推动越南语法律智能化服务具有重要的学术与应用价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作