oshizo/LawClustering-ja

Name: oshizo/LawClustering-ja
Creator: oshizo
Published: 2024-06-23 15:35:15
License: 暂无描述

Hugging Face2024-06-23 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/oshizo/LawClustering-ja

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从日本政府网站e-Gov收集的XML数据，经过处理后形成的，主要用于文本分类任务。数据集包含训练集和测试集，分别有4595和1532个样本。数据集的特征包括Era（时代）、LawType（法律类型）、filename（文件名）、LawNum（法律编号）、label（标签）、text（文本）和分類（分类）。label列基于法令分类数据进行分类，且数据集的划分保持了label的比例。数据集的语言为日语。

This dataset is formed from XML data collected from the Japanese government website e-Gov, processed for text classification tasks. The dataset includes training and test sets with 4595 and 1532 samples, respectively. Features of the dataset include Era, LawType, filename, LawNum, label, text, and 分類 (classification). The label column is classified based on legal classification data, and the datasets division maintains the proportion of labels. The language of the dataset is Japanese.

提供机构：

oshizo

原始信息汇总

数据集概述

数据集信息

特征（Features）:
- Era: 字符串类型
- LawType: 字符串类型
- filename: 字符串类型
- LawNum: 字符串类型
- label: 64位整数类型
- text: 字符串类型
- 分類: 字符串类型
分割（Splits）:
- train: 包含4595个样本，占用167404362字节
- test: 包含1532个样本，占用81992607字节
数据集大小:
- 下载大小: 67387776字节
- 总大小: 249396969字节
配置（Configs）:
- default:
  - train: 数据路径为data/train-*
  - test: 数据路径为data/test-*
任务类别（Task Categories）:
- 文本分类
语言（Language）:
- 日语

数据集构建

数据来源: 从e-Gov下载的XML数据。
数据筛选: 从11,111个XML文件中筛选出Era标签为"Heisei"或"Reiwa"的6,127个样本。
文本内容: text列由LawTitle标签中的法令标题和MainProvision标签中的正文拼接而成。
标签: label列基于法令分類データ进行分类。
分割方式: 在保持label比例的前提下，随机将数据分为train和test两部分。

标签分布

label	分類	train	test
1	憲法	27	8
2	刑事	81	27
3	財務通則	97	32
4	水産業	31	11
5	観光	32	11
6	国会	22	8
7	警察	94	31
8	国有財産	10	3
9	鉱業	9	3
10	郵務	23	8
11	行政組織	514	172
12	消防	21	6
13	国税	121	41
14	工業	233	77
15	電気通信	72	24
16	国家公務員	133	45
17	国土開発	86	29
18	事業	9	2
19	商業	72	25
20	労働	99	33
21	行政手続	125	42
22	土地	19	7
23	国債	39	13
24	金融・保険	219	73
25	環境保全	175	58
26	統計	14	4
27	都市計画	48	16
28	教育	95	32
29	外国為替・貿易	17	6
30	厚生	286	95
31	地方自治	115	38
32	道路	14	5
33	文化	54	18
34	陸運	52	17
35	社会福祉	198	67
36	地方財政	58	19
37	河川	0	0
38	産業通則	242	80
39	海運	46	16
40	社会保険	92	31
41	司法	40	13
42	災害対策	217	73
43	農業	160	53
44	航空	22	7
45	防衛	28	9
46	民事	233	78
47	建築・住宅	67	22
48	林業	24	9
49	貨物運送	14	4
50	外事	96	31

搜集汇总

数据集介绍

背景与挑战

背景概述

这是一个日本法律文本聚类数据集，包含从e-Gov平台收集的平成和令和时代的6,127条法律文本，主要用于文本分类任务。数据集具有49个法律类别标签，并已按比例划分为训练集和测试集，适用于日语自然语言处理模型的训练和评估。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集