five

guust-franssens/belgian-journal

收藏
Hugging Face2024-07-21 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/guust-franssens/belgian-journal
下载链接
链接失效反馈
官方服务:
资源简介:
数据集包含比利时公司在比利时官方公报(Moniteur Belge/Belgisch Staatstblad)上发布的法规公告的元数据和文本。数据是通过网络爬虫从比利时官方公报网站收集的。数据集支持法语、荷兰语和少量德语(比利时的官方语言),并且遵循Apache 2.0许可证。数据集的特征包括公司名称、地址、发布日期、文本内容等。

Dataset contains the metadata + the text of bylaw publications of Belgian companies on the Belgian Journal (Moniteur Belge/Belgisch Staatstblad). This data was collected by webscraping the Belgian Journal. The dataset supports French, Dutch, and a small subset of German (official languages of Belgium) and is licensed under Apache 2.0. The features include company name, address, publication date, text content, etc.
提供机构:
guust-franssens
原始信息汇总

数据集概述

数据集信息

  • 特征列表

    • vat:公司增值税号,数据类型为字符串。
    • pubid:出版物ID,数据类型为字符串。
    • act_description:法案描述,数据类型为字符串。
    • company_name:公司名称,数据类型为字符串。
    • company_juridical_form:公司法律形式,数据类型为字符串。
    • address:公司地址,数据类型为字符串。
    • street:街道信息,数据类型为字符串。
    • zipcode:邮政编码,数据类型为字符串。
    • city:城市信息,数据类型为字符串。
    • publication_date:出版日期,数据类型为日期。
    • publication_number:出版物编号,数据类型为字符串。
    • publication_link:出版物链接,数据类型为字符串。
    • text:文本内容,数据类型为字符串。
    • is_digital:是否为数字出版物,数据类型为布尔值。
  • 数据分割

    • train:训练集,包含223,087个样本,总大小为4,848,858,326字节。
  • 下载大小:2,286,830,476字节

  • 数据集大小:4,848,858,326字节

配置信息

  • 配置名称default
    • 数据文件路径data/train-*

许可证

  • 许可证类型:Apache 2.0

任务类别

  • 任务类别:文本生成

语言

  • 支持语言:法语、荷兰语、德语(少量)

标签

  • 标签:金融、法律

数据集名称

  • 名称:Belgian Journal (Moniteur Belge/Belgisch Staatsblad)

数据集规模

  • 规模:100K < n < 1M
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作