five

swedish-construction-faq

收藏
Hugging Face2026-04-17 更新2026-04-18 收录
下载链接:
https://huggingface.co/datasets/DecDEPO/swedish-construction-faq
下载链接
链接失效反馈
官方服务:
资源简介:
瑞典建筑FAQ数据集是一个针对瑞典建筑行业的开放问答数据集,包含503个问答对(v1.1.0版本),目标达到1000+。数据集支持瑞典语(默认配置)和英语(english配置),采用CC BY 4.0许可协议。问答内容基于瑞典法律(如PBL、BBR、KTjL等),答案长度为30-150个单词。数据集涵盖25个类别,包括建筑许可、ROT减免、RUT减免、合同等。每个条目包含唯一ID、类别、瑞典语问题、瑞典语答案、法律引用和相关服务字段。适用于问答、文本生成和文本分类任务。数据集由Zaragoza AB维护,并作为更广泛知识图谱的一部分。
创建时间:
2026-04-17
原始信息汇总

Swedish Construction FAQ 数据集概述

基本描述

  • 数据集名称: Swedish Construction FAQ
  • 主要用途: 面向瑞典建筑行业(byggbranschen)的开放式双语问答数据集。
  • 核心内容: 包含503个问答对,涵盖39个类别,每个答案均基于瑞典主要法律和权威指导文件。
  • 维护方: Zaragoza AB(瑞典赫尔辛堡)。
  • 版本: 1.2.2(2026-04-17)。

技术规格

  • 语言: 瑞典语(sv,默认配置)和英语(enenglish配置)。
  • 许可协议: CC BY 4.0(需要署名)。
  • 规模类别: n<1K。
  • 任务类别: 问答、文本生成、文本分类、文本检索。
  • 多语言性: 多语言。
  • 数据来源: 原始数据。
  • 标注创建者: 专家生成。
  • 语言创建者: 专家生成。

数据内容

  • 数据量: 503个问答对。
  • 类别数量: 39个。
  • 答案长度: 30–150个单词。
  • 法律依据: 基于瑞典主要法律(PBL, BBR, KTjL, AFS, ABS 18, AB 04, Miljöbalken)以及瑞典税务局、瑞典国家住房建筑和规划委员会、瑞典工作环境管理局、瑞典消费者局等机构的权威指导。
  • 数据格式: JSONL(主数据集),GitHub镜像中提供JSON、CSV、Alpaca、ShareGPT格式。

数据字段

字段名 类型 描述
id 字符串 唯一标识符,例如 bygglov-001
category 字符串 39个类别之一
q 字符串 瑞典语问题
a 字符串 瑞典语答案,30–150个单词
sources 字符串列表 法律/法规引用
related_service 字符串 相关的Zaragoza AB服务标识

类别列表(39个)

Bygglov · Attefallshus · Friggebod · Tillbyggnad · ROT-avdrag · RUT-avdrag · F-skatt · Omvänd moms · Personalliggare · Takläggning · Fasadrenovering · Köksrenovering · Badrumsrenovering · Isolering · Fönsterbyte · VVS · Elinstallation · Ventilation · Värmesystem (värmepump) · Dolda fel · Garanti · Verifiera byggfirma · Kontrakt (ABS18) · Kontrakt (AB04/ABT06) · Arbetsmiljö & AFS · Kostnader · Offerter · BBR · PBL · Energideklaration · Miljöbalken · Dispute resolution · Konsumentverket & ARN · Renovering av kulturhistorisk byggnad · Solceller · Avlopp & VA · Rivning · Markarbete · Bygganmälan.

访问与使用

  • Hugging Face数据集地址: https://huggingface.co/datasets/DecDEPO/swedish-construction-faq
  • GitHub镜像地址: https://github.com/zaragoza-ab/swedish-construction-faq-1000
  • 实时搜索演示: https://huggingface.co/spaces/DecDEPO/swedish-construction-faq-search
  • Colab快速入门: https://colab.research.google.com/github/zaragoza-ab/swedish-construction-faq-1000/blob/main/notebooks/quickstart.ipynb
  • 项目主页: https://zaragoza-ab.github.io/swedish-construction-faq-1000/dataset.html

相关标识

  • DOI: https://doi.org/10.5281/zenodo.19630803
  • Wikidata: https://www.wikidata.org/wiki/Q139393633

相关数据集(同一组织)

数据集名称 Wikidata 描述
swedish-construction-terminology https://www.wikidata.org/wiki/Q139393817 500+术语词汇表
byggmaterial-spec-sweden https://www.wikidata.org/wiki/Q139393818 材料规格(SS-EN 206等)
besiktningsprotokoll-mallar https://www.wikidata.org/wiki/Q139393819 检查协议模板
renovation-timeline-planner https://www.wikidata.org/wiki/Q139393821 翻新时间线和建筑许可流程

引用格式

bibtex @dataset{zaragoza_swedish_construction_faq_2026, author = {{Zaragoza AB}}, title = {Swedish Construction FAQ — Open Q&A Dataset (SV + EN)}, year = {2026}, version = {1.2.2}, publisher = {Zenodo}, doi = {10.5281/zenodo.19630803}, url = {https://doi.org/10.5281/zenodo.19630803} }

搜集汇总
数据集介绍
main_image_url
构建方式
在建筑法规与行业实践交织的复杂领域,瑞典建筑常见问题解答数据集的构建体现了严谨的领域知识工程。该数据集由专业机构Zaragoza AB的专家精心编制,其核心内容涵盖39个关键类别,共503组双语问答对。构建过程严格依据瑞典的《规划与建筑法》、《建筑规范》等主要法律法规,并整合了税务、消费者保护及工作环境等多个权威机构的官方指导文件。每一则答案均附有明确的法律或监管引文作为来源,确保了信息的高度准确性与可追溯性,从而为法律与建筑领域的交叉研究提供了坚实的结构化语料基础。
特点
本数据集以其高度的领域专业性和双语特性而著称。内容全面覆盖了从建筑许可、税收减免到合同纠纷、材料规范等建筑行业全流程的实务问题,构成了一个微观的行业知识图谱。其答案长度被精心控制在30至150个单词之间,在保证信息完整性的同时兼顾了模型的训练效率。尤为突出的是,数据集不仅提供瑞典语原文,还包含了对应的英语配置,这种双语平行结构为跨语言信息检索、机器翻译以及多语言模型的指令微调研究开辟了新的可能性。
使用方法
对于研究人员而言,该数据集可直接通过Hugging Face的`datasets`库便捷加载,支持按默认的瑞典语或独立的英语配置进行调用。数据集的结构化字段便于进行细粒度的操作,例如通过类别字段筛选特定主题的问题,或基于关键词在问题和答案中进行内容检索。此外,项目在GitHub镜像中提供了Alpaca和ShareGPT等指令微调格式,方便用户直接将其应用于对话模型或问答系统的训练与评估,从而探索专业领域大语言模型的应用潜力。
背景与挑战
背景概述
在自然语言处理领域,专业领域问答数据集的构建对于推动行业知识服务智能化至关重要。Swedish Construction FAQ数据集由瑞典的Zaragoza AB公司于2026年创建,旨在为瑞典建筑行业提供一个双语(瑞典语/英语)的开放问答资源。该数据集聚焦于建筑法规、税务减免、合同标准等核心研究问题,涵盖了39个具体类别,共计503个问答对。其独特之处在于每个答案均严格依据瑞典主要法律法规及权威指导文件进行标注,为建筑领域的法律咨询、自动化客户服务及专业教育提供了高质量的语料基础,对提升领域特定语言模型的准确性与可靠性具有显著影响力。
当前挑战
该数据集致力于解决建筑行业专业问答的挑战,其核心在于处理高度专业化、法律约束性强且动态更新的领域知识。具体而言,挑战首先体现在确保问答内容的准确性与权威性,这要求对分散且复杂的瑞典建筑法规体系进行精确解读与整合。其次,构建过程中面临双语对齐的困难,需在保持法律术语严谨性的同时,实现瑞典语原文与英语译文在语义上的无损转换。此外,数据规模相对有限,如何在较小样本下有效覆盖建筑行业的广泛细分主题,并保持类别间的平衡,亦是构建时需克服的难点。
常用场景
经典使用场景
在建筑行业自然语言处理领域,Swedish Construction FAQ数据集为专业领域问答系统提供了高质量的训练资源。其经典使用场景聚焦于构建针对瑞典建筑法规、税务减免和施工流程的自动化问答模型。通过涵盖39个类别的503个双语问答对,该数据集能够训练模型准确理解诸如建筑许可申请、ROT/RUT税务抵扣、合同条款等复杂专业问题,并生成基于瑞典主要法律和权威指南的精确回答。这种应用显著提升了建筑行业信息检索的效率和准确性。
衍生相关工作
围绕该数据集已衍生出多个经典研究方向与工具。在数据集层面,其维护机构Zaragoza AB同步发布了建筑术语表、材料规范及检查协议模板等相关资源,共同构成了一个完整的建筑行业知识图谱生态系统。在研究层面,它催生了针对瑞典语专业领域的指令微调模型、跨语言法律信息检索系统,以及结合具体法规条文进行答案验证的混合增强生成框架。这些工作不仅深化了专业领域NLP的应用,也为其他垂直领域的双语专业化数据集构建提供了可复制的范式。
数据集最近研究
最新研究方向
在建筑行业数字化转型的浪潮中,瑞典建筑FAQ数据集凭借其双语、领域特定且法律依据严谨的特性,正成为自然语言处理领域的研究热点。该数据集聚焦于指令微调与法律信息检索的交叉前沿,研究者利用其精准标注的法律来源字段,探索如何增强大型语言模型在专业法规理解与解释方面的能力。随着全球对建筑行业合规性与可持续性关注度的提升,该数据集为开发自动化法律咨询工具、智能合同分析系统以及跨语言建筑知识服务平台提供了关键的训练资源,推动了领域自适应问答技术向更高准确性与可靠性迈进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作