pbgdpl-vn-legal-qna
收藏数据集概述:pbgdpl.gov.vn — Vietnamese Legal Q&A
基本信息
| 项目 | 内容 |
|---|---|
| 数据集名称 | pbgdpl.gov.vn — Vietnamese Legal Q&A |
| 语言 | 越南语 (vi) |
| 许可证 | 其他(越南政府公开问答) |
| 记录数量 | 4,593 对问答对 |
| 时间范围 | 2007-03-13 至 2021-10-20(自2021年底起冻结) |
| 主题分类 | 532 个声明的法律领域主题,29 个活跃主题 |
| 法律引用率 | 98.1% 的答案引用了主要法律 |
| 数据来源 | https://pbgdpl.gov.vn/Pages/hoi-dap-pl.aspx |
| 爬取时间 | 2026-05-08 |
数据集内容
每条记录包含一个公众提交的法律问题及司法部(Bộ Tư pháp)工作人员或合作部门撰写的官方答案。答案高度依赖主要法律引用:91% 引用至少一部《Luật》(法律),90% 引用至少一个《Điều》(条款),每条答案平均引用3.1个条款。
除了问答文本,每条记录还携带元数据:
- LinhVuc:法律主题分配
- Featured set:首页“热门问题”标识(
is_featured) - Listing position:在全局列表中的页码和位置
- Provenance:来源 URL、爬取运行 ID、获取时间戳和状态审计字段
支持的任务
- 问答(Question Answering):越南语法律领域封闭域问答
- 信息检索(Information Retrieval):4,593 对问答对,适合密集/混合检索器评估
- 主题分类(Topic Classification):29 个类别的单标签法律主题分类
- 引用提取/法律命名实体识别(Citation Extraction / Legal-NER):高引用密度,适用于越南法律工具 NER 评估
数据结构
数据实例示例
jsonc { "item_id": 16557, "source": "pbgdpl.gov.vn", "source_url": "https://pbgdpl.gov.vn/SMPT_Publishing_UC/HoiDapPL/frmDSCauHoi.aspx?ItemID=16557", "scraped_at": "2026-05-08T12:50:18+00:00", "scrape_run_id": "20260508T121702Z", "listing_page": 256, "listing_position": 4, "is_featured": false, "lv_ids": [104], "lv_names": ["Dân sự"], "title": "Hai lần thế chấp quyền sử dụng đất để đảm bảo cho hai nghĩa vụ", "question_text": "...", "answer_text": "...", "date_sent_raw": "06/07/2012", "date_sent": "2012-07-06", "sender_name": null, "disclaimer": "(Nội dung trả lời chỉ mang tính chất tham khảo)", "question_char_len": 375, "answer_char_len": 2333, "question_word_count": 71, "answer_word_count": 491, "answer_text_hash": "3a6c0e…", "fetch_status": "ok", "fetch_error": null }
主要字段说明
| 字段 | 类型 | 描述 |
|---|---|---|
item_id |
int | 主键 |
source_url |
str | 精确的 ?ItemID= URL |
lv_ids / lv_names |
int[] / str[] | 法律主题 ID 和名称 |
question_text |
str | 清洗后的问题正文 |
answer_text |
str | 清洗后的答案正文 |
date_sent |
str? | 发送日期(ISO YYYY-MM-DD) |
sender_name |
str? | 公开的发送者名称 |
disclaimer |
str? | 免责声明文本 |
数据拆分
| 配置 | 拆分 | 记录数 |
|---|---|---|
qa(默认) |
train |
4,593 |
listings |
train |
4,593 |
使用 load_dataset("tmquan/pbgdpl-vn-legal-qna") 获取默认的 QA 配置;传递 name="listings" 获取列表侧元数据视图。
辅助文件
taxonomy.json:532 个声明的法律领域主题 + 精选 ID 列表analytics.json:预计算汇总(主题计数、年份分布、长度直方图、引用密度、发送者统计、示例记录)manifest.json:单次运行摘要
主题分布
| 数量 | 主题 |
|---|---|
| 800 | Dân sự(民法) |
| 554 | Thi hành án(判决执行) |
| 393 | Hôn nhân gia đình(家庭法) |
| 368 | Đất đai(土地法) |
| 354 | Hình sự(刑法) |
| 288 | Hộ tịch(民事身份) |
| 240 | Công chứng(公证) |
| 211 | Hành chính tư pháp(司法行政) |
| 145 | Thương mại, đầu tư, chứng khoán(商业、投资、证券) |
| 143 | Lao động(劳动法) |
| 124 | Chứng thực(认证) |
| 97 | Giao dịch đảm bảo(担保交易) |
| 92 | Cư trú(居住) |
| 85 | Con nuôi(收养) |
| 69 | Lý lịch tư pháp(司法记录) |
- 前5个主题覆盖语料库的54%
- 仅有532个声明主题中的29个包含数据
- 每条问答仅分配一个主题
数据集创建
数据来源
数据由越南司法部(Bộ Tư pháp)在公共法律教育门户 pbgdpl.gov.vn 发布。门户由 ASP.NET WebForms 功能模块提供服务器端渲染的 HTML,无公开 JSON/OData/SOAP API。
爬虫通过以下方式收集数据:
- 列表页面:
GET /SMPT_Publishing_UC/HoiDapPL/frmDSCauHoi.aspx?page=N(1-575页) - 主题过滤列表:
GET …?lv=<id>&page=N - 详情页面:
GET …?ItemID=<id>
爬取参数:2 QPS / 4 个工人,完整语料库运行约50分钟
个人信息/敏感信息
sender_name 包含来源门户公布的发送者标签。约93%的记录(4,291/4,593)包含非空发送者名称,共3,371个不同值。这些名称已在 pbgdpl.gov.vn 上公开,但下游用户应将其视为低敏感度个人身份信息(PII)。
使用注意事项
社会影响
该语料库适用于:
- 越南法律语言建模和检索研究
- 基于权威越南参考语料库的接地生成系统评估
- 法律信息获取和部门使用的法律主题结构研究
偏差与局限性
- 自2021-10-20起冻结:门户自那以后未发布新提交
- 法律引用可能过时:例如家庭法答案引用2000年法律,但现行法律是2014年版本
- 免责声明:所有答案附有“仅供参考”声明,不能替代合格法律咨询
- 主题倾斜:前5个民法主题占语料库的54%
- 日期倾斜:三个发布高峰(2012年、2015年、2021年)约占语料库一半
- 发送者字段噪声:包含假名、部分名称和聚合账户名称
- 无软删除项:本次发布中0条记录返回空片段
许可证
数据集以**其他(越南政府公开问答)**许可证分发,对下游用户有非排他性期望:
- 在任何衍生数据集或出版物中注明来源(
pbgdpl.gov.vn,Bộ Tư pháp) - 重新分发答案文本时保留来源免责声明
- 将
sender_name视为低敏感度 PII - 不得在更宽松的许可证下重新分发
- 数据使用受适用越南法律和来源门户服务条款约束




