five

hieunguyen1053/tvpl_split

收藏
Hugging Face2024-07-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hieunguyen1053/tvpl_split
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个特征,包括文本、元数据、内容和引用。元数据进一步细分为发布机构、颁布日期、签署编号、签署者和类型。数据集分为三个部分:dieu、khoan和diem,每个部分都有相应的字节大小和示例数量。数据集的总下载大小和总大小也被列出。

The dataset contains multiple features including text, metadata, content, and citation. Metadata is further subdivided into issuing agency, promulgation date, sign number, signer, and type. The dataset is divided into three parts: dieu, khoan, and diem, each with corresponding byte sizes and example counts. The total download size and total size of the dataset are also listed.
提供机构:
hieunguyen1053
原始信息汇总

数据集信息

特征

  • text: 数据类型为字符串。
  • meta: 结构化数据,包含以下字段:
    • issuing_agency: 数据类型为字符串。
    • promulgation_date: 数据类型为字符串。
    • sign_number: 数据类型为字符串。
    • signer: 数据类型为字符串。
    • type: 数据类型为字符串。
  • content: 数据类型为字符串。
  • citation: 数据类型为字符串。

数据分割

  • train: 字节数为2799973858,样本数为974099。
  • fim: 字节数为2357531110.0,样本数为1323881。
  • khoan: 字节数为1735747247,样本数为915698。
  • diem: 字节数为837701319,样本数为607941。
  • dieu: 字节数为2448095860,样本数为909509。

数据集大小

  • 下载大小: 3970259778字节。
  • 数据集大小: 10179049394.0字节。

配置

  • default: 包含以下数据文件路径:
    • train: data/train-*
    • dieu: data/dieu-*
    • khoan: data/khoan-*
    • diem: data/diem-*
    • fim: data/fim-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作