DuongTrongChi/thuvienphapluat
收藏Hugging Face2024-05-17 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/DuongTrongChi/thuvienphapluat
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了URL、内容和元数据三个主要字段。元数据部分详细记录了文档的类型、发布日期、公告日期、生效日期、合并日期、签署人、发布地点、公告编号、编号和状态等信息。数据集被分为训练集,包含了大量的字节和示例。此外,还提供了用于数据预处理和文本提取的Python代码。
该数据集包含了URL、内容和元数据三个主要字段。元数据部分详细记录了文档的类型、发布日期、公告日期、生效日期、合并日期、签署人、发布地点、公告编号、编号和状态等信息。数据集被分为训练集,包含了大量的字节和示例。此外,还提供了用于数据预处理和文本提取的Python代码。
提供机构:
DuongTrongChi
原始信息汇总
数据集概述
数据集特征
- urls: 字符串类型
- content: 字符串类型
- metadata: 结构化数据,包含以下字段:
- Loại văn bản: (文档类型): 字符串类型
- Ngày ban hành: (发布日期): 字符串类型
- Ngày công báo: (公告日期): 字符串类型
- Ngày hiệu lực: (生效日期): 字符串类型
- Ngày hợp nhất: (合并日期): 字符串类型
- Người ký: (签署人): 字符串类型
- Nơi ban hành: (发布地点): 字符串类型
- Số công báo: (公告号): 字符串类型
- Số hiệu: (编号): 字符串类型
- Tình trạng: (状态): 字符串类型
数据集分割
- train:
- 数据大小: 37521917271 字节
- 示例数量: 329223
数据集大小
- 下载大小: 5523799449 字节
- 数据集总大小: 37521917271 字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*



