hdv2709/Vietnamese_Legal_Traffic_Judge_Prediction_QA
收藏Hugging Face2026-04-17 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/hdv2709/Vietnamese_Legal_Traffic_Judge_Prediction_QA
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
---
# Public Dataset — Nghị định 168/2024/NĐ-CP
Tập dữ liệu hỏi đáp pháp luật giao thông đường bộ được xây dựng từ **Nghị định 168/2024/NĐ-CP** về xử phạt vi phạm hành chính trong lĩnh vực giao thông đường bộ.
---
## Tổng quan
| | Train | Test | Tổng |
|---|---|---|---|
| **Số mẫu** | 1.000 | 200 | 1.200 |
| **Tỉ lệ** | ~83% | ~17% | 100% |
Dữ liệu được **shuffle ngẫu nhiên** (seed = 42) trước khi chia để đảm bảo phân phối đồng đều giữa hai tập.
---
## Cấu trúc mỗi mẫu
```json
{
"id": "official_00001",
"question_type": "simple",
"instruction": "...",
"input": {
"question": "...",
"retrieved_rules": [
{
"rule_id": "d7_k5_c",
"subject": "motorbike",
"action": "fail_to_yield_when_turning",
"context": [],
"exception": [],
"fine_min": 800000,
"fine_max": 1000000
}
]
},
"output": {
"facts": [
{
"predicate": "case_subject_type",
"args": ["user1", "motorbike"]
},
{
"predicate": "case_action",
"args": ["user1", "fail_to_yield_when_turning"]
}
]
},
"text_answer": "Người điều khiển xe mô tô rẽ xe không nhường đường sẽ bị phạt từ 800.000 đồng đến 1.000.000 đồng."
}
```
| Trường | Mô tả |
|---|---|
| `id` | Chỉ số mẫu |
| `question_type` | Loại câu hỏi |
| `input.question` | Câu hỏi tình huống vi phạm |
| `input.retrieved_rules` | Tập luật gồm rule đúng + nhiễu |
| `output.facts` | Fact trích xuất |
| `text_answer` | Câu trả lời cuối cùng |
---
## Phân phối loại câu hỏi
| Loại câu hỏi | Mô tả | Train | Test |
|---|---|---|---|
| `simple` | Hỏi thẳng một hành vi vi phạm | 300 | 60 |
| `quantitative_context` | Hỏi về mức phạt, con số cụ thể | 250 | 50 |
| `complex_multi_hop` | Nhiều hành vi vi phạm cùng lúc | 220 | 40 |
| `exception_handling` | Tình huống có ngoại lệ, không vi phạm | 180 | 30 |
| `insufficient_info` | Thiếu thông tin, không đủ cơ sở pháp lý | 50 | 20 |
---
## Phân phối điều luật (Top 10 — Train)
| Điều | Số lượt xuất hiện (train) |
|---|---|
| Điều 7 (xe mô tô, xe gắn máy) | 192 |
| Điều 32 (chủ phương tiện) | 136 |
| Điều 13 (điều kiện xe ô tô) | 122 |
| Điều 9 (xe đạp, xe thô sơ) | 91 |
| Điều 39 (đào tạo, sát hạch lái xe) | 77 |
| Điều 6 (quy tắc xe ô tô) | 69 |
| Điều 18 (vận tải hành khách) | 55 |
| Điều 20 (xe khách, xe buýt) | 50 |
| Điều 8 (xe máy chuyên dùng) | 49 |
| Điều 26 (vận tải hàng hóa) | 48 |
---
## Nguồn gốc dữ liệu
- Tổng hợp từ các file JSON
- Bao phủ các điều từ **Điều 6 đến Điều 40** của Nghị định 168/2024/NĐ-CP
- Câu hỏi và đáp án được sinh tự động có kiểm duyệt
---
## Sử dụng
```python
import json
with open("train.json", encoding="utf-8") as f:
train_data = json.load(f)
with open("test.json", encoding="utf-8") as f:
test_data = json.load(f)
```
license: apache-2.0
# 公开数据集 — 第168/2024/NĐ-CP号政府令
本数据集为道路交通安全法律咨询问答数据集,基于《第168/2024/NĐ-CP号政府令》(道路交通安全领域行政违法行为处罚规定)构建。
---
## 总览
| 数据集划分 | 训练集 | 测试集 | 总计 |
|---|---|---|---|
| 样本数量 | 1000 | 200 | 1200 |
| 占比 | 约83% | 约17% | 100% |
数据集在划分前已进行随机洗牌(随机种子=42),以确保两个数据集的分布均匀一致。
---
## 单条样本结构
json
{
"id": "official_00001",
"question_type": "simple",
"instruction": "...",
"input": {
"question": "...",
"retrieved_rules": [
{
"rule_id": "d7_k5_c",
"subject": "motorbike",
"action": "fail_to_yield_when_turning",
"context": [],
"exception": [],
"fine_min": 800000,
"fine_max": 1000000
}
]
},
"output": {
"facts": [
{
"predicate": "case_subject_type",
"args": ["user1", "motorbike"]
},
{
"predicate": "case_action",
"args": ["user1", "fail_to_yield_when_turning"]
}
]
},
"text_answer": "Người điều khiển xe mô tô rẽ xe không nhường đường sẽ bị phạt từ 800.000 đồng đến 1.000.000 đồng."
}
| 字段 | 说明 |
|---|---|
| `id` | 样本唯一标识 |
| `question_type` | 问题类型 |
| `input.question` | 违法场景问句 |
| `input.retrieved_rules` | 规则集合,包含匹配法条与干扰规则 |
| `output.facts` | 提取的案件事实 |
| `text_answer` | 最终文本答复 |
---
## 问题类型分布
| 问题类型 | 说明 | 训练集数量 | 测试集数量 |
|---|---|---|---|
| `simple` | 针对单一违法违规行为的直接问询 | 300 | 60 |
| `quantitative_context` | 关于处罚金额、具体数值的问询 | 250 | 50 |
| `complex_multi_hop` | 同时涉及多项违法违规行为的复杂问询 | 220 | 40 |
| `exception_handling` | 包含豁免情形、不构成违法的场景问询 | 180 | 30 |
| `insufficient_info` | 信息不足、缺乏法律依据的问询 | 50 | 20 |
---
## 训练集规则分布(Top10)
| 法条条款 | 训练集出现频次 |
|---|---|
| 第7条(摩托车、轻便摩托车) | 192 |
| 第32条(车辆所有人) | 136 |
| 第13条(汽车使用条件) | 122 |
| 第9条(自行车、非机动车) | 91 |
| 第39条(机动车驾驶培训与考试) | 77 |
| 第6条(汽车通行规则) | 69 |
| 第18条(客运运营) | 55 |
| 第20条(客车、公交车) | 50 |
| 第8条(专用摩托车) | 49 |
| 第26条(货运运营) | 48 |
---
## 数据集来源
- 整合自多个JSON文件
- 覆盖《第168/2024/NĐ-CP号政府令》第6条至第40条所有条款
- 问答内容经人工审核后自动生成
---
## 使用方法
python
import json
with open("train.json", encoding="utf-8") as f:
train_data = json.load(f)
with open("test.json", encoding="utf-8") as f:
test_data = json.load(f)
提供机构:
hdv2709



