FemkeBakker/AmsterdamDocClassificationDataset|文档分类数据集|自然语言处理数据集
收藏hugging_face2024-07-12 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/FemkeBakker/AmsterdamDocClassificationDataset
下载链接
链接失效反馈资源简介:
该数据集是荷兰阿姆斯特丹市政府的Raadsinformatie文件集合,这些文件根据《开放政府法》(Woo)发布。数据集用于‘使用大型语言模型进行文档分类’项目,包含11个类别的文档,如预算、研究报告和动议等。项目的目标是对这些文档进行分类,以便更容易找到并提高可访问性。数据集的特征包括文本、标签、页数和分割信息。数据集的大小为254,697,480字节,包含20,818个训练样本。
This dataset is a collection of Dutch Raadsinformatie documents from the Municipality of Amsterdam, which were published in compliance with the Open Government Act (Woo). It is used for the Document Classification using Large Language Models project. The documents belong to 11 categories, such as Budgets, Research Reports and Motions. The projects objective was to classify these documents to make them easier to find and thus improve accessibility.
提供机构:
FemkeBakker
原始信息汇总
数据集概述
数据集信息
- 特征:
text: 文本数据,类型为stringlabel: 标签数据,类型为stringnum_pages: 页数,类型为float64split: 数据集分割,类型为string
- 分割:
train: 训练集,包含 20818 个样本,大小为 254697480 字节
- 下载大小: 134126358 字节
- 数据集大小: 254697480 字节
- 配置:
default: 默认配置,包含训练集数据文件路径data/train-*
- 许可证: eupl-1.1
- 语言: 荷兰语 (nl)
- 标签:
document_classification
- 规模: 10K < n < 100K
数据集描述
- 该数据集包含来自阿姆斯特丹市政府的荷兰语Raadsinformatie文档,这些文档根据《开放政府法》发布。
- 文档属于11个类别,如预算、研究报告和动议。
- 数据集用于文档分类项目,旨在通过分类文档提高其可访问性。
数据集版本
- 修改版本:
AmsterdamBalancedFirst200Tokens: 用于微调大型语言模型的对话数据集,每个文档的前200个token。
数据来源
https://amsterdam.raadsinformatie.nl/https://openresearch.amsterdam/https://open.amsterdam/



