five

DDC CWICR - Construction Work Items, Components & Resources

收藏
github2025-12-11 更新2025-12-12 收录
下载链接:
https://github.com/datadrivenconstruction/OpenConstructionEstimate-DDC-CWICR
下载链接
链接失效反馈
官方服务:
资源简介:
DDC CWICR(建筑工程工作项、组件和资源)是一个开放的建筑工程成本估算数据库,涵盖了从土方工程和混凝土浇筑到专业安装工作的全方位建筑活动。该数据库借鉴了描述欧亚和亚太地区现代建筑实践的来源,这些地区统一的技术标准化生态系统为十多个动态发展的经济体提供了共同的工程语言。DDC CWICR代表了一项通过建立多语言的资本项目管理单一监管框架来协调开放标准的努力。结构化数据可以通过表格格式(XLSX、CSV、Parquet)访问,或通过LLM进行对话式查询,使专业人员能够将建筑工程描述(QDRANT向量数据库)集成到自动化管道和工作流程中,使用普通语言或简洁查询。

DDC CWICR (Construction Work Items, Components, and Resources) is an open construction engineering cost estimation database covering the full spectrum of construction activities, ranging from earthwork and concrete placement to specialized installation work. The database draws on sources documenting modern construction practices across Eurasia and the Asia-Pacific region, where a unified technical standardization ecosystem has established a common engineering language for over a dozen dynamically developing economies. DDC CWICR represents an initiative to coordinate open standards by building a single regulatory framework for multilingual capital project management. Structured data can be accessed via tabular formats including XLSX, CSV, and Parquet, or queried conversationally through LLMs, allowing professionals to integrate construction work descriptions (QDRANT vector database) into automated pipelines and workflows using either plain or concise natural language queries.
创建时间:
2025-12-09
原始信息汇总

DDC CWICR 数据集概述

数据集基本信息

  • 数据集名称: DDC CWICR (Construction Work Items, Components & Resources)
  • 核心内容: 建筑工程成本估算的开放数据库,涵盖从土方工程、混凝土浇筑到专业安装工作的全方位施工活动。
  • 数据规模: 包含 55,719 个工作项和 27,672 个资源。
  • 覆盖范围: 数据源描述了欧亚大陆和亚太地区的现代建筑实践,涵盖超过10个快速发展经济体的统一技术标准化生态系统。
  • 语言支持: 9种语言。
  • 地区覆盖: 10个以上国家。
  • 许可证: CC BY 4.0。
  • 版本: v0.1.0。

数据格式与获取

数据集提供多种格式,可通过 GitHub Releases 下载。

格式 扩展名 大小 适用场景 特点
Excel .xlsx ~150–400 MB 手动分析、筛选、数据透视表 人类可读,完整格式
Parquet .parquet ~55 MB ETL管道、机器学习训练、大数据 列式存储,优秀压缩率
CSV .csv ~1.3 GB 数据库导入、遗留系统 通用兼容性
Qdrant .snapshot ~1 GB 语义搜索、RAG、AI助手 预计算的 OpenAI 嵌入向量 (3072维)

数据模式与结构

数据库包含 85个字段,组织成逻辑组。每条记录代表一个工作项(定额)或一个具有完整成本分解的资源。

实体关系概览

  • RATE (定额): 包含资源,需要劳动力,使用机械,具有价格变体。
  • RESOURCE (资源): 包含材料、抽象资源等。
  • LABOR (劳动力): 包含工时、工人数量、成本等信息。
  • MACHINERY (机械): 包含机械类别、电力消耗、成本等信息。
  • PRICE_VARIANT (价格变体): 包含价格估算的中位数、最小值、最大值等信息。

主要字段分组

  • 分类: category_type, collection_name, department_name, section_name 等。
  • 工作项 (定额): rate_code, rate_original_name, rate_unit, work_composition_text 等。
  • 资源: resource_code, resource_name, resource_unit, resource_quantity, resource_price_per_unit_eur, resource_cost_eur 等。
  • 劳动力: count_workers_per_unit, labor_hours_construction_workers, cost_of_working_hours 等。
  • 机械: machine_class2_name, electricity_consumption_kwh, total_value_machinery 等。
  • 价格变体: price_est_median, price_est_min, price_est_max, position_count 等。
  • 聚合: total_cost_per_position, total_material_cost_per_position 等。
  • 质量与服务: mass_name, service_category, service_cost_sum 等。

方法论

基于资源的成本计算 的核心价值在于将不变的生产技术与波动的财务成分分离。它基于建筑工程的物理“第一原理”:

  • 特定工作所需的劳动工时
  • 每单位工作所需的材料数量
  • 所需的设备时间

关键优势

  • 透明度: 无隐藏加价的定价,完整的资源分解。
  • 可审计性: 用于投资分析和验证的深度挖掘能力。
  • 可移植性: 跨市场适用的地区独立规范。
  • 成熟性: 100多年建立的行业标准方法。

处理流程与输出

处理管道

  1. 数据源: DDC CWICR 数据集。
  2. 处理: ETL(提取与转换)、翻译(9种语言)、向量化(OpenAI 3072维嵌入)。
  3. 输出格式: Excel、Parquet、CSV、Qdrant 快照。
  4. 应用: 语义搜索、BIM 5D集成、RAG系统、BI分析。

集成与应用

使用案例

  • 入门级: 成本基准测试、价格指数化、投标估算。
  • 中级: 本地化、ETL/BI管道、二氧化碳计算。
  • 高级: AI/ML训练、CAD (BIM) 5D、深度投资审计。

n8n 工作流

提供基于 Revit/IFC/DWG 模型或施工现场描述/照片的自动成本估算管道。工作流阶段包括:

  1. 项目输入(文本、照片、CAD模型)。
  2. 数据提取与转换。
  3. 数据准备(AI清理与分类)。
  4. 阶段1-3:规划(检测项目与阶段)。
  5. 阶段4:分解(将类型分解为工作项)。
  6. 阶段5:定价(通过向量数据库定价)。
  7. 阶段7.5:验证(CTO审查)。
  8. 输出(HTML和XLS报告)。

向量数据库

提供基于 Qdrant 的预构建集合,使用 OpenAI text-embedding-3-large 模型生成嵌入向量,支持跨建筑工程工作项的语义搜索。

可用集合

  • 🇸🇦 ddc_cwicr_ar (阿拉伯语)
  • 🇨🇳 ddc_cwicr_zh (中文)
  • 🇩🇪 ddc_cwicr_de (德语)
  • 🇬🇧 ddc_cwicr_en (英语)
  • 🇪🇸 ddc_cwicr_es (西班牙语)
  • 🇫🇷 ddc_cwicr_fr (法语)
  • 🇮🇳 ddc_cwicr_hi (印地语)
  • 🇧🇷 ddc_cwicr_pt (葡萄牙语)
  • 🇷🇺 ddc_cwicr_ru (俄语)

每个集合包含 55,719 个向量 及完整的元数据负载。

部署

提供 Docker Compose 配置示例,用于部署 Qdrant 服务并加载快照。

实时演示

可通过 openconstructionestimate.com 访问实时演示,探索数据并查看语义搜索的向量数据库实际应用。

搜集汇总
数据集介绍
main_image_url
构建方式
在建筑工程成本估算领域,数据驱动的标准化方法正成为行业革新的核心。DDC CWICR数据集通过整合欧亚及亚太地区逾十个经济体的现代施工实践,构建了一个覆盖土方工程、混凝土浇筑到专业安装等全谱系施工活动的开放数据库。其构建过程遵循资源成本法,将不变的生产技术要素与波动的财务成分分离,基于劳动工时、材料用量及设备需求等物理“第一性原理”进行结构化。数据源经过提取、转换与加载流程,并翻译为九种语言,最终生成了包含85个字段的55,719个工作项与27,672项资源的记录,以Excel、Parquet、CSV及预嵌入向量的Qdrant快照等多种格式呈现。
使用方法
针对不同应用场景,数据集提供了多元化的使用途径。用户可通过传统的表格格式进行手动分析或导入数据库系统,亦能利用Parquet格式构建ETL管道或机器学习训练流程。其预计算的向量数据库快照支持语义检索与检索增强生成系统,使得用户能够以对话方式查询施工工作描述,集成至自动化工作流中。数据集设计支持从初级成本对标、价格指数化到高级的BIM 5D集成与深度投资审计等多层次用例,并提供了基于n8n工作流的自动化估算管道示例,实现从文本、照片或CAD模型到结构化成本报告的端到端处理。
背景与挑战
背景概述
在建筑工程成本估算领域,长期存在着数据标准化不足与跨区域可比性缺失的挑战。DDC CWICR(建筑工程工作项、构件与资源)数据集由DataDrivenConstruction机构于近期创建,旨在构建一个开放、多语言的建筑工程成本估算数据库。该数据集植根于资源型标准化方法学,其历史渊源可追溯至20世纪20年代的生产定额体系,并在欧亚及亚太地区经过百年演变与完善。核心研究问题聚焦于如何将物理资源消耗(如工时、材料量、设备时间)与动态市场价格解耦,从而建立透明、可审计且具备区域适应性的成本估算框架。该数据集涵盖55,719个工作项与27,672项资源,支持九种语言,为建筑工程领域的数字化估算、人工智能集成与跨国项目成本分析提供了关键基础设施。
当前挑战
该数据集致力于解决建筑工程成本估算领域的两大核心挑战:一是传统估算方法中技术规范与市场价格高度耦合,导致跨地区、跨时期成本对比困难;二是海量、异构的工程定额数据难以被机器直接理解与应用。在构建过程中,团队面临多重技术障碍:首先,需将源自不同国家、语言各异的百年技术规范体系进行语义对齐与结构化转换,确保数据逻辑一致性;其次,处理高达85个字段的复杂数据模式,并在保持资源消耗量不变的前提下,适配多区域市场价格变量;最后,为实现自然语言交互与智能检索,需为数十万条记录生成高质量的多语言向量嵌入,并构建高效的语义搜索架构,这对数据处理管道与计算资源提出了严峻考验。
常用场景
经典使用场景
在建筑成本估算与工程量清单编制领域,DDC CWICR数据集提供了一个标准化的资源库,用于支撑精细化、结构化的工程造价分析。其经典应用场景体现在基于资源消耗定额的工程计价过程中,数据集将施工活动分解为具体的工作项、构件与资源,并量化了每单位工程量所需的人工工时、材料消耗及机械台班。这种模式使得估算师能够依据项目设计参数,快速匹配并组合相应的定额条目,从而生成详尽且透明的成本分解报告,为招投标、预算编制以及项目成本控制奠定数据基础。
解决学术问题
该数据集有效应对了建筑工程管理研究中长期存在的成本数据碎片化与标准化缺失问题。通过整合跨越欧亚及亚太地区的多语言、多国别施工规范与资源价格,它构建了一个统一、可互操作的造价信息框架。这为学术界探索成本驱动因素分析、跨区域造价指数比较、以及基于历史数据的施工生产率建模提供了高质量、结构化的实证基础。其资源与价格分离的核心理念,亦支持了在波动市场环境下工程造价风险与不确定性量化研究,推动了建筑经济学与工程管理学科的交叉融合。
实际应用
在实际工程项目管理中,DDC CWICR数据集被广泛应用于自动化成本估算流水线。通过与建筑信息模型(BIM)系统集成,能够实现从三维模型到五维成本(5D BIM)的自动算量与计价。此外,借助其预计算的向量数据库与语义搜索能力,工程师可使用自然语言描述施工任务,系统便能智能匹配并提取对应工作项及其资源构成,极大提升了前期估算与价值工程分析的效率。该数据集也服务于承包商的价格基准比对、业主方的投资审计以及可持续建筑中的隐含碳计算等多元化实务场景。
数据集最近研究
最新研究方向
在建筑信息模型与人工智能深度融合的背景下,DDC CWICR数据集正推动建筑成本估算领域的前沿研究。该数据集整合了跨越欧亚及亚太地区的多语言标准化工程数据,其资源分解成本法的百年方法论为研究提供了坚实的历史技术基础。当前研究热点聚焦于利用其预计算的OpenAI高维向量嵌入与Qdrant向量数据库,构建基于检索增强生成(RAG)的智能估算系统,实现从自然语言描述、设计图纸乃至现场照片到结构化成本清单的端到端自动化。这一方向不仅革新了传统的5D BIM成本管理流程,也为建筑行业的数字化转型提供了可审计、透明且可移植的数据驱动范式,对提升全球建筑项目投资决策的精准性与效率具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作