hieunguyen1053/tvpl_split
收藏Hugging Face2024-07-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hieunguyen1053/tvpl_split
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,包括文本、元数据、内容和引用。元数据进一步细分为发布机构、颁布日期、签署编号、签署者和类型。数据集分为三个部分:dieu、khoan和diem,每个部分都有相应的字节大小和示例数量。数据集的总下载大小和总大小也被列出。
The dataset contains multiple features including text, metadata, content, and citation. Metadata is further subdivided into issuing agency, promulgation date, sign number, signer, and type. The dataset is divided into three parts: dieu, khoan, and diem, each with corresponding byte sizes and example counts. The total download size and total size of the dataset are also listed.
提供机构:
hieunguyen1053
原始信息汇总
数据集信息
特征
- text: 数据类型为字符串。
- meta: 结构化数据,包含以下字段:
- issuing_agency: 数据类型为字符串。
- promulgation_date: 数据类型为字符串。
- sign_number: 数据类型为字符串。
- signer: 数据类型为字符串。
- type: 数据类型为字符串。
- content: 数据类型为字符串。
- citation: 数据类型为字符串。
数据分割
- train: 字节数为2799973858,样本数为974099。
- fim: 字节数为2357531110.0,样本数为1323881。
- khoan: 字节数为1735747247,样本数为915698。
- diem: 字节数为837701319,样本数为607941。
- dieu: 字节数为2448095860,样本数为909509。
数据集大小
- 下载大小: 3970259778字节。
- 数据集大小: 10179049394.0字节。
配置
- default: 包含以下数据文件路径:
- train:
data/train-* - dieu:
data/dieu-* - khoan:
data/khoan-* - diem:
data/diem-* - fim:
data/fim-*
- train:



