guust-franssens/belgian-journal
收藏Hugging Face2024-07-21 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/guust-franssens/belgian-journal
下载链接
链接失效反馈官方服务:
资源简介:
数据集包含比利时公司在比利时官方公报(Moniteur Belge/Belgisch Staatstblad)上发布的法规公告的元数据和文本。数据是通过网络爬虫从比利时官方公报网站收集的。数据集支持法语、荷兰语和少量德语(比利时的官方语言),并且遵循Apache 2.0许可证。数据集的特征包括公司名称、地址、发布日期、文本内容等。
Dataset contains the metadata + the text of bylaw publications of Belgian companies on the Belgian Journal (Moniteur Belge/Belgisch Staatstblad). This data was collected by webscraping the Belgian Journal. The dataset supports French, Dutch, and a small subset of German (official languages of Belgium) and is licensed under Apache 2.0. The features include company name, address, publication date, text content, etc.
提供机构:
guust-franssens
原始信息汇总
数据集概述
数据集信息
-
特征列表:
vat:公司增值税号,数据类型为字符串。pubid:出版物ID,数据类型为字符串。act_description:法案描述,数据类型为字符串。company_name:公司名称,数据类型为字符串。company_juridical_form:公司法律形式,数据类型为字符串。address:公司地址,数据类型为字符串。street:街道信息,数据类型为字符串。zipcode:邮政编码,数据类型为字符串。city:城市信息,数据类型为字符串。publication_date:出版日期,数据类型为日期。publication_number:出版物编号,数据类型为字符串。publication_link:出版物链接,数据类型为字符串。text:文本内容,数据类型为字符串。is_digital:是否为数字出版物,数据类型为布尔值。
-
数据分割:
train:训练集,包含223,087个样本,总大小为4,848,858,326字节。
-
下载大小:2,286,830,476字节
-
数据集大小:4,848,858,326字节
配置信息
- 配置名称:
default- 数据文件路径:
data/train-*
- 数据文件路径:
许可证
- 许可证类型:Apache 2.0
任务类别
- 任务类别:文本生成
语言
- 支持语言:法语、荷兰语、德语(少量)
标签
- 标签:金融、法律
数据集名称
- 名称:Belgian Journal (Moniteur Belge/Belgisch Staatsblad)
数据集规模
- 规模:100K < n < 1M



