five

qs-data

收藏
github2026-05-11 更新2026-05-12 收录
下载链接:
https://github.com/eva01/qs-data
下载链接
链接失效反馈
官方服务:
资源简介:
马来西亚建筑成本数据集,从Quantity Surveyor Online网站通过Gemini OCR提取,结构化为机器可读的知识库,包含价格表、参考表和强度组列表等多种数据类型,涵盖建筑材料价格、劳动力费率、设备费率等类别,数据以JSON、JSONL和Markdown格式提供,支持历史快照和版本管理。

Malaysian construction cost dataset, extracted from the Quantity Surveyor Online website via Gemini OCR. It is structured into a machine-readable knowledge base, covering multiple data types including price lists, reference tables, strength group lists and others. The dataset encompasses categories such as construction material prices, labor rates and equipment rates. The data is provided in JSON, JSONL and Markdown formats, and supports historical snapshots and version management.
创建时间:
2026-05-10
原始信息汇总

数据集概述

该数据集是一个结构化的马来西亚建筑成本知识库,数据来源于马来西亚工料测量在线平台(需许可订阅),以机器可读格式组织,便于大型语言模型使用。

数据结构与获取方式

项目 说明
入口文件 manifest.json,列出所有类别、数据日期、行数和文件URL
数据获取 通过 latest.json 获取完整结构化数据;通过 latest.jsonl 支持流式或部分读取
示例地址 https://raw.githubusercontent.com/eva01/qs-data/master/manifest.json

仓库结构

  • manifest.json:LLM入口,所有类别索引
  • schemas/:包含三种JSON Schema (price_table.schema.jsonreference_table.schema.jsonstrength_group_list.schema.json)
  • vocab/:包含单位映射 (units.json) 和类别元数据 (categories.json)
  • data/<category>/:每个类别下包含 latest.jsonlatest.jsonllatest.md 及历史快照 (YYYY-MM-DD格式)
  • tools/:包含转换工具 (md_to_json.pyjson_to_md.pybuild_manifest.py)

数据类型

1. price_table(价格表)

  • 适用类别:all-in-rates-architecture、all-in-rates-structure、labour-rates、materials-prices、plant-equipment-rates、preliminaries-rates
  • 每行字段row_idsectionsection_nameitem_nodescriptionpriceunitunit_rawalt_prices(可选)、remarks(可选)
  • 价格对象类型
    • fixed:固定价格(含金额和货币MYR)
    • range:价格范围(含最小/最大值)
    • formula:按合同金额百分比计算
    • item:另行计价项目
    • tbd:未提供价格

2. reference_table(参考表)

  • 适用类别:building-element-steel-content、conversion-table、rebar-hook-bend-lap、rebar-kg-per-m、weight-of-building-materials
  • 结构:静态参考数据,行结构因类别而异,详见各JSON文件的 columns 字段

3. strength_group_list(强度组列表)

  • 适用类别:timber-strength-group
  • 内容:马来西亚木材按A-D组分类,每行包含组别和木材种类列表

完整类别列表

类别标识 显示名称 类型 数据日期 行数
all-in-rates-architecture 综合费率(建筑) price_table 2026-03-06 57
all-in-rates-structure 综合费率(结构) price_table 2026-03-06 66
building-element-steel-content 建筑构件含钢量 reference_table 静态 9
conversion-table 换算表 reference_table 静态 17
labour-rates 人工费率 price_table 2025-11-19 44
materials-prices 材料价格 price_table 2026-03-06 190
plant-equipment-rates 机械与设备费率 price_table 2025-11-19 63
preliminaries-rates 开办费率 price_table 2026-03-30 43
rebar-hook-bend-lap 钢筋弯钩、弯曲与搭接 reference_table 静态 72
rebar-kg-per-m 钢筋每米重量 reference_table 静态 15
timber-strength-group 木材强度组 strength_group_list 静态 4
weight-of-building-materials 建筑材料重量 reference_table 静态 18

查询示例

  • 查询Grade 30商品混凝土价格:获取 materials-prices 数据,筛选 section == "B" 且描述含 "Grade 30"
  • 查询300x300mm地砖铺贴综合单价:获取 all-in-rates-architecture 数据,筛选 section "C" (楼面饰面)
  • 查询CIDB征收率:获取 preliminaries-rates 数据,筛选 section "L"
  • 查询T16钢筋每米重量:获取 rebar-kg-per-m 数据,筛选 diameter_mm == 16
  • 确认Chengal是否为A组木材:获取 timber-strength-group 数据,检查第一行木材列表

工具使用

  • 转换工具:基于Python 3.9+标准库,无需外部依赖
    • md_to_json.py:将Markdown转为JSON+JSONL
    • json_to_md.py:将JSON转为规范Markdown
    • build_manifest.py:重新生成manifest.json

数据来源

  • 来源平台:马来西亚工料测量在线平台(需许可订阅)
  • 货币单位:马来西亚林吉特 (MYR)
  • 适用区域:马来西亚
搜集汇总
数据集介绍
main_image_url
构建方式
qs-data数据集系统性地收录了马来西亚建筑成本数据,其数据源为权威平台Quantity Surveyor Online的授权订阅内容。构建过程中,通过网页抓取技术获取原始数据,随后利用内置的转换工具(如md_to_json.py)将非结构化的Markdown文件处理为结构化的JSON及JSONL格式。数据集遵循严格的模式定义,依据price_table、reference_table和strength_group_list三类数据模式进行组织,并配备统一的JSON Schema以保障数据结构的一致性与可解析性。每个类别均维护最新的数据文件及历史快照,并通过build_manifest.py清单生成脚本建立全局索引,最终形成一个可供机器高效读取与检索的知识库。
特点
该数据集的核心特点在于其高度的结构化与自描述性。数据文件内嵌模式版本、数据日期等元信息,便于下游系统自动识别与处理。数据覆盖范围广泛,涵盖建筑工程全费用单价、材料价格、劳动力费率、机械台班费以及预备费等多个专业类别,并包含马来西亚特有的参考数据如木材强度分组与钢筋搭接长度表。价格类型丰富,支持固定值、区间范围、公式计算及待定等多种表示方式。此外,数据集提供统一的JSON行格式(JSONL)以支持流式读取,配合manifest.json清单文件,使得大型语言模型能够高效地发现和按需加载特定类别的数据。
使用方法
使用qs-data数据集时,推荐以manifest.json作为切入点,遍历清单以获取所有可用类别及其对应的最新数据文件URL。研究者在选定所需类别(如materials-prices)后,可直接访问其latest.json文件,该文件以完整的结构化JSON对象呈现所有行数据;如需对大体积数据进行渐进式或部分处理,则可选用latest.jsonl格式,每一行独立为一个JSON对象,便于逐条解析。数据查询可通过编程手段对description字段进行关键词筛选或按section代码进行过滤,例如定位特定规格的商品混凝土价格。项目同时提供了基于Python标准库的转换与清单重生成工具,支持数据格式间的高效互转与索引更新。
背景与挑战
背景概述
马来西亚建筑行业长期依赖分散、非结构化的造价数据,导致工程量清单编制与成本估算效率低下。qs-data数据集由开发者eva01于2025年至2026年间构建,从马来西亚工程量测算在线平台(Quantity Surveyor Online)的授权订阅内容中爬取并结构化处理,形成机器可读的知识库。其核心研究问题在于将零散的造价表格转化为标准化的结构化数据,涵盖材料价格、人工费率、综合单价等12个类别,并支持历史快照与流式读取。该数据集为建筑信息模型(BIM)与大型语言模型(LLM)在工程造价领域的应用提供了首个系统性参考基准,显著提升了数据可访问性与互操作性。
当前挑战
该数据集面临的挑战主要包括:1)领域问题层面,建筑造价数据动态性强,价格随市场波动频繁,需持续抓取与更新以保持时效性,同时不同来源的计量单位(如'吨'与't')及描述方式存在歧义,需统一规范化;2)构建过程中,原始数据需通过OCR从非结构化Markdown中提取,面临表格变形、字符识别错误等噪声干扰,且需设计兼顾易用性与扩展性的JSON Schema以兼容价格范围、公式等多种类型,此外还须确保所有历史快照与最新版本之间的数据一致性,避免版本碎片化。
常用场景
经典使用场景
在建筑工程与造价管理领域,qs-data数据集最为经典的应用场景是作为马来西亚地区施工成本估算与预算编制的结构化数据底座。研究人员与从业者可借助其精心组织的价格表(price_table),如材料价格、人工费率及综合单价,实现从混凝土标号查询到铺砖工序成本核算的精准匹配。该数据集通过标准化单元映射与元数据清单(manifest.json),为构建智能化造价咨询系统提供了可复用的知识源,尤其适用于需要快速检索本地化成本信息的工程前期决策阶段。
衍生相关工作
围绕qs-data数据集已衍生出一系列富有影响力的学术与实践工作。在工具层面,基于其manifest.json设计的成本数据发现机制启发了多款轻量级造价查询插件;在模型层面,研究者利用其结构化价格序列训练了针对马来西亚建材市场的短期价格预测模型,验证了数据密度与预测精度的正相关性。此外,数据集中的木材强度分组表被整合进绿色建筑评估体系,支撑了本地可持续建材供应链的分析研究,展现了领域知识库在跨学科应用中的辐射价值。
数据集最近研究
最新研究方向
在马来西亚建筑业数字化转型的浪潮中,qs-data数据集通过将工料测量在线资源转化为结构化、机器可读的知识库,为大型语言模型(LLM)在工程造价领域的应用开辟了新路径。该数据集涵盖材料价格、人工费率、综合单价等12个类别,并创新性地采用JSON Schema定义、版本化快照及流式读取接口(JSONL),使得AI系统能够高效检索与推理马来西亚建筑成本数据。这一方向与近年建筑业普遍关注的数据驱动决策、自动化估价和智能合约等热点紧密相连,qs-data的出现不仅降低了语言模型在专业工程经济领域获取结构化信息的门槛,更推动了区域建筑成本数据的标准化与互联互通,对于促进东南亚工程造价的智能化分析具有里程碑式的示范意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作