five

Nithins03/us-architectural-floorplan-sft

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/Nithins03/us-architectural-floorplan-sft
下载链接
链接失效反馈
官方服务:
资源简介:
一个对话格式(ChatML)的数据集,用于训练大型语言模型生成遵循美国建筑惯例和国际住宅规范(IRC)标准的住宅平面图。

A conversational (ChatML) dataset for training LLMs to generate residential floor plans following US architectural conventions and IRC (International Residential Code) standards.
提供机构:
Nithins03
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于美国住宅建筑领域的专业需求构建,融合了多种数据来源以确保其全面性和实用性。其中,2000条数据源自FloorplanQA-Layouts数据集,经过从公制到英制的单位转换,形成独立的房间布局样本;8000条数据为合成的完整美式住宅平面图,覆盖八种典型建筑风格;另有2000条数据聚焦于建筑设计与规范问答。整体采用ChatML对话格式,每条样本包含系统、用户和助手三轮交互,系统角色设定为专家,用户提出设计需求,助手则输出设计推理与结构化的JSON平面图数据。
特点
该数据集的核心特色在于其严格遵循美国建筑惯例与国际住宅规范(IRC),为生成住宅平面图提供了专业化的知识基础。数据涵盖八种经典美式建筑风格,包括牧场式、殖民地式、科德角式等,并包含二十种常见房间类型,如主卧室、厨房、车库等,展现了丰富的住宅设计多样性。此外,数据集采用多轮对话的ChatML格式,不仅保留了设计推理过程,还通过JSON结构实现了平面图的标准化表示,便于模型学习从需求到设计的完整逻辑链条。
使用方法
该数据集可直接通过HuggingFace的datasets库加载,使用load_dataset函数即可获取训练集和测试集,其中每条样本的messages字段包含了完整的对话内容。数据集专为文本生成任务设计,兼容多种训练方法,例如可使用TRL库的SFTTrainer进行监督微调,也可通过构建有效与无效平面图对扩展为DPO训练,或设计平面图有效性奖励函数以支持GRPO训练。用户可根据实际需求对系统提示或用户输入进行调整,以适配不同的微调策略和应用场景。
背景与挑战
背景概述
在人工智能与建筑设计的交叉领域,大型语言模型(LLMs)展现出在文本生成任务中的卓越能力,但将其应用于结构化空间设计如住宅平面图生成时,仍面临领域知识匮乏与标准化缺失的挑战。为此,研究者于近年构建了US Architectural Floor Plan SFT数据集,由Nithins03等研究人员主导,旨在训练LLMs遵循美国建筑惯例与国际住宅规范(IRC)生成住宅平面图。该数据集包含12,000个基于ChatML格式的对话样本,覆盖了从独立房间布局到完整房屋设计的多层级场景,并融合了8种典型美式建筑风格。其发布填补了LLMs在建筑领域指令微调数据集方面的空白,为智能家居设计与自动化建筑方案生成提供了重要的基准资源,推动了AI辅助住宅设计的标准化进程。
当前挑战
数据集所解决的领域问题核心在于将自然语言设计需求转化为符合美国建筑法规的结构化平面图,这要求模型理解建筑规范、空间几何与功能分区等复杂约束。具体挑战包括:1)设计知识的符号化表达,如将IRC代码中的尺寸、间距与安全要求转化为可训练的监督信号;2)多风格与多类型平面图的数据稀缺性,需通过合成数据(8,000套虚拟房屋)与现有数据集(如FloorplanQA-Layouts)的转换来弥补,但单位转换与风格统一引入额外误差。构建过程中,从公制到英制的度量转换可能导致空间比例失真,且合成数据与实际建筑逻辑之间可能存在语义鸿沟,增加了模型泛化难度。
常用场景
经典使用场景
该数据集主要服务于大规模语言模型在住宅建筑设计领域的指令微调任务。通过提供12,000条遵循美国建筑传统与国际住宅规范(IRC)的对话式训练样本,研究者可将其作为核心训练素材,构建能够理解和生成符合美国建筑风格与规范的住宅平面图生成模型。每一条数据均包含系统提示、用户需求描述与助理生成的设计推理及结构化的JSON平面图输出,特别适合用于训练具备空间认知与建筑知识的高质量AI助手。
实际应用
在实际落地中,该数据集训练出的模型可被集成至在线家居设计平台、地产营销系统或客户自助设计工具中,辅助用户快速生成个性化住宅平面图。例如,用户只需输入“设计一栋2,200平方英尺的工匠风格住宅,包含3间卧室与2间浴室”,系统即可自动输出符合IRC标准的设计方案,显著降低了专业建筑设计服务的门槛。同时,建造师与室内设计师可借助其快速迭代设计草案,提升前期构思阶段的效率与创意多样性。
衍生相关工作
基于该数据集,研究者已经开发了若干衍生工作。其中典型成果包括:利用DPO方法构建包含有效与无效平面图对的偏好优化框架,以提升模型输出合规性;基于GRPO方法设计了平面图有效性奖励函数,使模型在强化学习过程中自发学习结构合理性。此外,有工作将其与FloorplanQA-Layouts等其他数据集结合,拓展了面向多户型、多风格的细粒度布局生成能力,并催生了面向建筑规范即时代码审查的全新评测基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作