five

SwissSPARK_Catalogs

收藏
Hugging Face2026-05-15 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/IntelliProcure/SwissSPARK_Catalogs
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是瑞士可持续采购分析与报告工具包(SwissSPARK)的辅助数据集,包含可持续采购标准目录的特定快照。目录版本来源于IntelliProcure/sustainability_criteria仓库,专门用于标注瑞士的招标文件,这些文件构成核心的IntelliProcure/SwissSPARK数据集。数据集主要用于文本分类任务,涉及法律领域,语言为德语,数据规模小于1000个样本。使用IntelliProcure/SwissSPARK数据集的用户建议使用此特定目录版本,以确保与原始标注的一致性,因为后续迭代的目录版本可能与原始标注使用的版本存在差异。数据集目前处于持续开发阶段,内容可能发生变化。采用CC-BY-4.0许可证,数据文件为catalogs_for_annotation.json,仅包含训练集。

This dataset is an auxiliary dataset for the Swiss Sustainable Procurement Analysis and Reporting Kit (SwissSPARK), containing a specific snapshot of the sustainable procurement criteria catalog. The catalog version is sourced from the IntelliProcure/sustainability_criteria repository and is specifically used for annotating Swiss tender documents, which form the core IntelliProcure/SwissSPARK dataset. The dataset is primarily used for text classification tasks, in the legal domain, with German as the language, and has a data size of less than 1000 samples. Users of the IntelliProcure/SwissSPARK dataset are advised to use this specific catalog version to ensure consistency with the original annotations, as subsequent iterations of the catalog may differ from the version used in the original annotations. Note that the dataset is currently under continuous development and its content may change. It is licensed under CC-BY-4.0, with the data file being catalogs_for_annotation.json, containing only the training set.
创建时间:
2026-05-01
搜集汇总
数据集介绍
main_image_url
构建方式
SwissSPARK_Catalogs数据集源于IntelliProcure/sustainability_criteria中可持续采购标准目录的特定时间点快照。该版本被精心选取,用于对瑞士招标公告进行标注,这些标注构成了IntelliProcure/SwissSPARK数据集的核心内容。为确保与原标注过程的一致性,数据集采用了固定版本的目录,避免后续迭代差异带来的干扰。
特点
该数据集专注于德语区法律文本分类任务,规模较小(n<1K),以JSON格式存储,并采用CC-BY-4.0许可协议。其核心特点在于与SwissSPARK数据集的紧密关联,提供了一致的标注基准。数据集目前处于活跃开发阶段,可能持续更新,因此使用特定快照版本成为保证研究可复现性的关键。
使用方法
用户可通过HuggingFace数据集加载工具直接使用默认配置,训练分割包含catalogs_for_annotation.json文件。建议与IntelliProcure/SwissSPARK数据集协同使用,以实现瑞士可持续采购分析的全流程。使用时需注意数据集处于持续变动中,推荐锁定当前快照版本以确保实验一致性。
背景与挑战
背景概述
SwissSPARK_Catalogs数据集由IntelliProcure研究团队创建,隶属于瑞士可持续公共采购分析与报告工具包(Swiss Sustainable Procurement Analysis & Reporting Kit)。该数据集收录了瑞士公共采购中涉及的可持续性评估标准目录,旨在为标注瑞士招标文件提供基准参考。其核心研究问题聚焦于如何系统化地量化与分析采购过程中的可持续性指标,从而推动公共采购领域的绿色转型。通过对标国际可持续采购框架,该数据集为后续SwissSPARK数据集中的招标文本标注提供了标准化依据,在瑞士乃至欧洲的可持续公共采购研究中具有重要的方法论价值。
当前挑战
该数据集面临的挑战主要源于领域问题的复杂性:可持续采购标准涉及环境、社会与经济多重维度,且瑞士各州、联邦层面的法规差异显著,导致分类体系难以统一。构建过程中,研究团队需动态跟踪不断更新的官方可持续性准则,且原始招标文本中关键信息的表述模糊不一,增加了标注一致性维护的难度。此外,数据集规模较小(不足1000条)且迭代频繁,后续版本与当前标注版本间的差异可能引发基准偏移,影响下游任务的复现性与可比性。
常用场景
经典使用场景
SwissSPARK_Catalogs数据集专为瑞士可持续公共采购分析而设计,其核心经典用途是作为文本分类任务的标注基准。研究者可利用该数据集中的可持续性采购标准目录,对瑞士公共招标文本进行自动化的可持续性主题分类,从而精确识别招标文件中涵盖的环境、社会与经济等维度的可持续性条款。这一场景要求模型能够理解德语法律文本中复杂的规范性表述,并准确对应至预定义的可持续性标准类别。
解决学术问题
该数据集解决了在公共采购领域进行大规模可持续性分析时所面临的关键学术挑战,即缺乏高质量、领域特定且标注一致的德语文本分类资源。它使得研究者能够量化瑞士公共采购中可持续性标准的融入程度与演变趋势,进而构建循证的政策评估框架。其意义在于为可持续采购的理论研究提供了可复现的数据基础,推动了法律文本与自然语言处理技术在绿色公共治理交叉领域的深度结合。
衍生相关工作
该数据集衍生了多项经典工作,其中最具代表性的是其核心配套数据集SwissSPARK——一个包含大量瑞士公共招标文本及其可持续性标注的大型语料库。后续研究在此基础上开展了跨语言迁移学习、小样本可持续性标准识别、以及基于提示学习的法规文本解析等任务。这些工作共同确立了瑞士在可持续采购数字化分析领域的标杆地位,并启发了欧盟成员国类似数据资源的构建与复用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作