five

hdv2709/Vietnamese_Legal_Traffic_Judge_Prediction_QA

收藏
Hugging Face2026-04-17 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/hdv2709/Vietnamese_Legal_Traffic_Judge_Prediction_QA
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 --- # Public Dataset — Nghị định 168/2024/NĐ-CP Tập dữ liệu hỏi đáp pháp luật giao thông đường bộ được xây dựng từ **Nghị định 168/2024/NĐ-CP** về xử phạt vi phạm hành chính trong lĩnh vực giao thông đường bộ. --- ## Tổng quan | | Train | Test | Tổng | |---|---|---|---| | **Số mẫu** | 1.000 | 200 | 1.200 | | **Tỉ lệ** | ~83% | ~17% | 100% | Dữ liệu được **shuffle ngẫu nhiên** (seed = 42) trước khi chia để đảm bảo phân phối đồng đều giữa hai tập. --- ## Cấu trúc mỗi mẫu ```json { "id": "official_00001", "question_type": "simple", "instruction": "...", "input": { "question": "...", "retrieved_rules": [ { "rule_id": "d7_k5_c", "subject": "motorbike", "action": "fail_to_yield_when_turning", "context": [], "exception": [], "fine_min": 800000, "fine_max": 1000000 } ] }, "output": { "facts": [ { "predicate": "case_subject_type", "args": ["user1", "motorbike"] }, { "predicate": "case_action", "args": ["user1", "fail_to_yield_when_turning"] } ] }, "text_answer": "Người điều khiển xe mô tô rẽ xe không nhường đường sẽ bị phạt từ 800.000 đồng đến 1.000.000 đồng." } ``` | Trường | Mô tả | |---|---| | `id` | Chỉ số mẫu | | `question_type` | Loại câu hỏi | | `input.question` | Câu hỏi tình huống vi phạm | | `input.retrieved_rules` | Tập luật gồm rule đúng + nhiễu | | `output.facts` | Fact trích xuất | | `text_answer` | Câu trả lời cuối cùng | --- ## Phân phối loại câu hỏi | Loại câu hỏi | Mô tả | Train | Test | |---|---|---|---| | `simple` | Hỏi thẳng một hành vi vi phạm | 300 | 60 | | `quantitative_context` | Hỏi về mức phạt, con số cụ thể | 250 | 50 | | `complex_multi_hop` | Nhiều hành vi vi phạm cùng lúc | 220 | 40 | | `exception_handling` | Tình huống có ngoại lệ, không vi phạm | 180 | 30 | | `insufficient_info` | Thiếu thông tin, không đủ cơ sở pháp lý | 50 | 20 | --- ## Phân phối điều luật (Top 10 — Train) | Điều | Số lượt xuất hiện (train) | |---|---| | Điều 7 (xe mô tô, xe gắn máy) | 192 | | Điều 32 (chủ phương tiện) | 136 | | Điều 13 (điều kiện xe ô tô) | 122 | | Điều 9 (xe đạp, xe thô sơ) | 91 | | Điều 39 (đào tạo, sát hạch lái xe) | 77 | | Điều 6 (quy tắc xe ô tô) | 69 | | Điều 18 (vận tải hành khách) | 55 | | Điều 20 (xe khách, xe buýt) | 50 | | Điều 8 (xe máy chuyên dùng) | 49 | | Điều 26 (vận tải hàng hóa) | 48 | --- ## Nguồn gốc dữ liệu - Tổng hợp từ các file JSON - Bao phủ các điều từ **Điều 6 đến Điều 40** của Nghị định 168/2024/NĐ-CP - Câu hỏi và đáp án được sinh tự động có kiểm duyệt --- ## Sử dụng ```python import json with open("train.json", encoding="utf-8") as f: train_data = json.load(f) with open("test.json", encoding="utf-8") as f: test_data = json.load(f) ```

license: apache-2.0 # 公开数据集 — 第168/2024/NĐ-CP号政府令 本数据集为道路交通安全法律咨询问答数据集,基于《第168/2024/NĐ-CP号政府令》(道路交通安全领域行政违法行为处罚规定)构建。 --- ## 总览 | 数据集划分 | 训练集 | 测试集 | 总计 | |---|---|---|---| | 样本数量 | 1000 | 200 | 1200 | | 占比 | 约83% | 约17% | 100% | 数据集在划分前已进行随机洗牌(随机种子=42),以确保两个数据集的分布均匀一致。 --- ## 单条样本结构 json { "id": "official_00001", "question_type": "simple", "instruction": "...", "input": { "question": "...", "retrieved_rules": [ { "rule_id": "d7_k5_c", "subject": "motorbike", "action": "fail_to_yield_when_turning", "context": [], "exception": [], "fine_min": 800000, "fine_max": 1000000 } ] }, "output": { "facts": [ { "predicate": "case_subject_type", "args": ["user1", "motorbike"] }, { "predicate": "case_action", "args": ["user1", "fail_to_yield_when_turning"] } ] }, "text_answer": "Người điều khiển xe mô tô rẽ xe không nhường đường sẽ bị phạt từ 800.000 đồng đến 1.000.000 đồng." } | 字段 | 说明 | |---|---| | `id` | 样本唯一标识 | | `question_type` | 问题类型 | | `input.question` | 违法场景问句 | | `input.retrieved_rules` | 规则集合,包含匹配法条与干扰规则 | | `output.facts` | 提取的案件事实 | | `text_answer` | 最终文本答复 | --- ## 问题类型分布 | 问题类型 | 说明 | 训练集数量 | 测试集数量 | |---|---|---|---| | `simple` | 针对单一违法违规行为的直接问询 | 300 | 60 | | `quantitative_context` | 关于处罚金额、具体数值的问询 | 250 | 50 | | `complex_multi_hop` | 同时涉及多项违法违规行为的复杂问询 | 220 | 40 | | `exception_handling` | 包含豁免情形、不构成违法的场景问询 | 180 | 30 | | `insufficient_info` | 信息不足、缺乏法律依据的问询 | 50 | 20 | --- ## 训练集规则分布(Top10) | 法条条款 | 训练集出现频次 | |---|---| | 第7条(摩托车、轻便摩托车) | 192 | | 第32条(车辆所有人) | 136 | | 第13条(汽车使用条件) | 122 | | 第9条(自行车、非机动车) | 91 | | 第39条(机动车驾驶培训与考试) | 77 | | 第6条(汽车通行规则) | 69 | | 第18条(客运运营) | 55 | | 第20条(客车、公交车) | 50 | | 第8条(专用摩托车) | 49 | | 第26条(货运运营) | 48 | --- ## 数据集来源 - 整合自多个JSON文件 - 覆盖《第168/2024/NĐ-CP号政府令》第6条至第40条所有条款 - 问答内容经人工审核后自动生成 --- ## 使用方法 python import json with open("train.json", encoding="utf-8") as f: train_data = json.load(f) with open("test.json", encoding="utf-8") as f: test_data = json.load(f)
提供机构:
hdv2709
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作