oshizo/LawClustering-ja
收藏Hugging Face2024-06-23 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/oshizo/LawClustering-ja
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从日本政府网站e-Gov收集的XML数据,经过处理后形成的,主要用于文本分类任务。数据集包含训练集和测试集,分别有4595和1532个样本。数据集的特征包括Era(时代)、LawType(法律类型)、filename(文件名)、LawNum(法律编号)、label(标签)、text(文本)和分類(分类)。label列基于法令分类数据进行分类,且数据集的划分保持了label的比例。数据集的语言为日语。
This dataset is formed from XML data collected from the Japanese government website e-Gov, processed for text classification tasks. The dataset includes training and test sets with 4595 and 1532 samples, respectively. Features of the dataset include Era, LawType, filename, LawNum, label, text, and 分類 (classification). The label column is classified based on legal classification data, and the datasets division maintains the proportion of labels. The language of the dataset is Japanese.
提供机构:
oshizo
原始信息汇总
数据集概述
数据集信息
-
特征(Features):
- Era: 字符串类型
- LawType: 字符串类型
- filename: 字符串类型
- LawNum: 字符串类型
- label: 64位整数类型
- text: 字符串类型
- 分類: 字符串类型
-
分割(Splits):
- train: 包含4595个样本,占用167404362字节
- test: 包含1532个样本,占用81992607字节
-
数据集大小:
- 下载大小: 67387776字节
- 总大小: 249396969字节
-
配置(Configs):
- default:
- train: 数据路径为
data/train-* - test: 数据路径为
data/test-*
- train: 数据路径为
- default:
-
任务类别(Task Categories):
- 文本分类
-
语言(Language):
- 日语
数据集构建
- 数据来源: 从e-Gov下载的XML数据。
- 数据筛选: 从11,111个XML文件中筛选出Era标签为"Heisei"或"Reiwa"的6,127个样本。
- 文本内容:
text列由LawTitle标签中的法令标题和MainProvision标签中的正文拼接而成。 - 标签:
label列基于法令分類データ进行分类。 - 分割方式: 在保持
label比例的前提下,随机将数据分为train和test两部分。
标签分布
| label | 分類 | train | test |
|---|---|---|---|
| 1 | 憲法 | 27 | 8 |
| 2 | 刑事 | 81 | 27 |
| 3 | 財務通則 | 97 | 32 |
| 4 | 水産業 | 31 | 11 |
| 5 | 観光 | 32 | 11 |
| 6 | 国会 | 22 | 8 |
| 7 | 警察 | 94 | 31 |
| 8 | 国有財産 | 10 | 3 |
| 9 | 鉱業 | 9 | 3 |
| 10 | 郵務 | 23 | 8 |
| 11 | 行政組織 | 514 | 172 |
| 12 | 消防 | 21 | 6 |
| 13 | 国税 | 121 | 41 |
| 14 | 工業 | 233 | 77 |
| 15 | 電気通信 | 72 | 24 |
| 16 | 国家公務員 | 133 | 45 |
| 17 | 国土開発 | 86 | 29 |
| 18 | 事業 | 9 | 2 |
| 19 | 商業 | 72 | 25 |
| 20 | 労働 | 99 | 33 |
| 21 | 行政手続 | 125 | 42 |
| 22 | 土地 | 19 | 7 |
| 23 | 国債 | 39 | 13 |
| 24 | 金融・保険 | 219 | 73 |
| 25 | 環境保全 | 175 | 58 |
| 26 | 統計 | 14 | 4 |
| 27 | 都市計画 | 48 | 16 |
| 28 | 教育 | 95 | 32 |
| 29 | 外国為替・貿易 | 17 | 6 |
| 30 | 厚生 | 286 | 95 |
| 31 | 地方自治 | 115 | 38 |
| 32 | 道路 | 14 | 5 |
| 33 | 文化 | 54 | 18 |
| 34 | 陸運 | 52 | 17 |
| 35 | 社会福祉 | 198 | 67 |
| 36 | 地方財政 | 58 | 19 |
| 37 | 河川 | 0 | 0 |
| 38 | 産業通則 | 242 | 80 |
| 39 | 海運 | 46 | 16 |
| 40 | 社会保険 | 92 | 31 |
| 41 | 司法 | 40 | 13 |
| 42 | 災害対策 | 217 | 73 |
| 43 | 農業 | 160 | 53 |
| 44 | 航空 | 22 | 7 |
| 45 | 防衛 | 28 | 9 |
| 46 | 民事 | 233 | 78 |
| 47 | 建築・住宅 | 67 | 22 |
| 48 | 林業 | 24 | 9 |
| 49 | 貨物運送 | 14 | 4 |
| 50 | 外事 | 96 | 31 |
搜集汇总
数据集介绍

背景与挑战
背景概述
这是一个日本法律文本聚类数据集,包含从e-Gov平台收集的平成和令和时代的6,127条法律文本,主要用于文本分类任务。数据集具有49个法律类别标签,并已按比例划分为训练集和测试集,适用于日语自然语言处理模型的训练和评估。
以上内容由遇见数据集搜集并总结生成



